]> asedeno.scripts.mit.edu Git - linux.git/blob - fs/io_uring.c
io-wq: re-add io_wq_current_is_worker()
[linux.git] / fs / io_uring.c
1 // SPDX-License-Identifier: GPL-2.0
2 /*
3  * Shared application/kernel submission and completion ring pairs, for
4  * supporting fast/efficient IO.
5  *
6  * A note on the read/write ordering memory barriers that are matched between
7  * the application and kernel side.
8  *
9  * After the application reads the CQ ring tail, it must use an
10  * appropriate smp_rmb() to pair with the smp_wmb() the kernel uses
11  * before writing the tail (using smp_load_acquire to read the tail will
12  * do). It also needs a smp_mb() before updating CQ head (ordering the
13  * entry load(s) with the head store), pairing with an implicit barrier
14  * through a control-dependency in io_get_cqring (smp_store_release to
15  * store head will do). Failure to do so could lead to reading invalid
16  * CQ entries.
17  *
18  * Likewise, the application must use an appropriate smp_wmb() before
19  * writing the SQ tail (ordering SQ entry stores with the tail store),
20  * which pairs with smp_load_acquire in io_get_sqring (smp_store_release
21  * to store the tail will do). And it needs a barrier ordering the SQ
22  * head load before writing new SQ entries (smp_load_acquire to read
23  * head will do).
24  *
25  * When using the SQ poll thread (IORING_SETUP_SQPOLL), the application
26  * needs to check the SQ flags for IORING_SQ_NEED_WAKEUP *after*
27  * updating the SQ tail; a full memory barrier smp_mb() is needed
28  * between.
29  *
30  * Also see the examples in the liburing library:
31  *
32  *      git://git.kernel.dk/liburing
33  *
34  * io_uring also uses READ/WRITE_ONCE() for _any_ store or load that happens
35  * from data shared between the kernel and application. This is done both
36  * for ordering purposes, but also to ensure that once a value is loaded from
37  * data that the application could potentially modify, it remains stable.
38  *
39  * Copyright (C) 2018-2019 Jens Axboe
40  * Copyright (c) 2018-2019 Christoph Hellwig
41  */
42 #include <linux/kernel.h>
43 #include <linux/init.h>
44 #include <linux/errno.h>
45 #include <linux/syscalls.h>
46 #include <linux/compat.h>
47 #include <linux/refcount.h>
48 #include <linux/uio.h>
49
50 #include <linux/sched/signal.h>
51 #include <linux/fs.h>
52 #include <linux/file.h>
53 #include <linux/fdtable.h>
54 #include <linux/mm.h>
55 #include <linux/mman.h>
56 #include <linux/mmu_context.h>
57 #include <linux/percpu.h>
58 #include <linux/slab.h>
59 #include <linux/kthread.h>
60 #include <linux/blkdev.h>
61 #include <linux/bvec.h>
62 #include <linux/net.h>
63 #include <net/sock.h>
64 #include <net/af_unix.h>
65 #include <net/scm.h>
66 #include <linux/anon_inodes.h>
67 #include <linux/sched/mm.h>
68 #include <linux/uaccess.h>
69 #include <linux/nospec.h>
70 #include <linux/sizes.h>
71 #include <linux/hugetlb.h>
72 #include <linux/highmem.h>
73
74 #define CREATE_TRACE_POINTS
75 #include <trace/events/io_uring.h>
76
77 #include <uapi/linux/io_uring.h>
78
79 #include "internal.h"
80 #include "io-wq.h"
81
82 #define IORING_MAX_ENTRIES      32768
83 #define IORING_MAX_CQ_ENTRIES   (2 * IORING_MAX_ENTRIES)
84
85 /*
86  * Shift of 9 is 512 entries, or exactly one page on 64-bit archs
87  */
88 #define IORING_FILE_TABLE_SHIFT 9
89 #define IORING_MAX_FILES_TABLE  (1U << IORING_FILE_TABLE_SHIFT)
90 #define IORING_FILE_TABLE_MASK  (IORING_MAX_FILES_TABLE - 1)
91 #define IORING_MAX_FIXED_FILES  (64 * IORING_MAX_FILES_TABLE)
92
93 struct io_uring {
94         u32 head ____cacheline_aligned_in_smp;
95         u32 tail ____cacheline_aligned_in_smp;
96 };
97
98 /*
99  * This data is shared with the application through the mmap at offsets
100  * IORING_OFF_SQ_RING and IORING_OFF_CQ_RING.
101  *
102  * The offsets to the member fields are published through struct
103  * io_sqring_offsets when calling io_uring_setup.
104  */
105 struct io_rings {
106         /*
107          * Head and tail offsets into the ring; the offsets need to be
108          * masked to get valid indices.
109          *
110          * The kernel controls head of the sq ring and the tail of the cq ring,
111          * and the application controls tail of the sq ring and the head of the
112          * cq ring.
113          */
114         struct io_uring         sq, cq;
115         /*
116          * Bitmasks to apply to head and tail offsets (constant, equals
117          * ring_entries - 1)
118          */
119         u32                     sq_ring_mask, cq_ring_mask;
120         /* Ring sizes (constant, power of 2) */
121         u32                     sq_ring_entries, cq_ring_entries;
122         /*
123          * Number of invalid entries dropped by the kernel due to
124          * invalid index stored in array
125          *
126          * Written by the kernel, shouldn't be modified by the
127          * application (i.e. get number of "new events" by comparing to
128          * cached value).
129          *
130          * After a new SQ head value was read by the application this
131          * counter includes all submissions that were dropped reaching
132          * the new SQ head (and possibly more).
133          */
134         u32                     sq_dropped;
135         /*
136          * Runtime flags
137          *
138          * Written by the kernel, shouldn't be modified by the
139          * application.
140          *
141          * The application needs a full memory barrier before checking
142          * for IORING_SQ_NEED_WAKEUP after updating the sq tail.
143          */
144         u32                     sq_flags;
145         /*
146          * Number of completion events lost because the queue was full;
147          * this should be avoided by the application by making sure
148          * there are not more requests pending than there is space in
149          * the completion queue.
150          *
151          * Written by the kernel, shouldn't be modified by the
152          * application (i.e. get number of "new events" by comparing to
153          * cached value).
154          *
155          * As completion events come in out of order this counter is not
156          * ordered with any other data.
157          */
158         u32                     cq_overflow;
159         /*
160          * Ring buffer of completion events.
161          *
162          * The kernel writes completion events fresh every time they are
163          * produced, so the application is allowed to modify pending
164          * entries.
165          */
166         struct io_uring_cqe     cqes[] ____cacheline_aligned_in_smp;
167 };
168
169 struct io_mapped_ubuf {
170         u64             ubuf;
171         size_t          len;
172         struct          bio_vec *bvec;
173         unsigned int    nr_bvecs;
174 };
175
176 struct fixed_file_table {
177         struct file             **files;
178 };
179
180 struct io_ring_ctx {
181         struct {
182                 struct percpu_ref       refs;
183         } ____cacheline_aligned_in_smp;
184
185         struct {
186                 unsigned int            flags;
187                 bool                    compat;
188                 bool                    account_mem;
189                 bool                    cq_overflow_flushed;
190                 bool                    drain_next;
191
192                 /*
193                  * Ring buffer of indices into array of io_uring_sqe, which is
194                  * mmapped by the application using the IORING_OFF_SQES offset.
195                  *
196                  * This indirection could e.g. be used to assign fixed
197                  * io_uring_sqe entries to operations and only submit them to
198                  * the queue when needed.
199                  *
200                  * The kernel modifies neither the indices array nor the entries
201                  * array.
202                  */
203                 u32                     *sq_array;
204                 unsigned                cached_sq_head;
205                 unsigned                sq_entries;
206                 unsigned                sq_mask;
207                 unsigned                sq_thread_idle;
208                 unsigned                cached_sq_dropped;
209                 atomic_t                cached_cq_overflow;
210                 struct io_uring_sqe     *sq_sqes;
211
212                 struct list_head        defer_list;
213                 struct list_head        timeout_list;
214                 struct list_head        cq_overflow_list;
215
216                 wait_queue_head_t       inflight_wait;
217         } ____cacheline_aligned_in_smp;
218
219         struct io_rings *rings;
220
221         /* IO offload */
222         struct io_wq            *io_wq;
223         struct task_struct      *sqo_thread;    /* if using sq thread polling */
224         struct mm_struct        *sqo_mm;
225         wait_queue_head_t       sqo_wait;
226
227         /*
228          * If used, fixed file set. Writers must ensure that ->refs is dead,
229          * readers must ensure that ->refs is alive as long as the file* is
230          * used. Only updated through io_uring_register(2).
231          */
232         struct fixed_file_table *file_table;
233         unsigned                nr_user_files;
234
235         /* if used, fixed mapped user buffers */
236         unsigned                nr_user_bufs;
237         struct io_mapped_ubuf   *user_bufs;
238
239         struct user_struct      *user;
240
241         const struct cred       *creds;
242
243         /* 0 is for ctx quiesce/reinit/free, 1 is for sqo_thread started */
244         struct completion       *completions;
245
246         /* if all else fails... */
247         struct io_kiocb         *fallback_req;
248
249 #if defined(CONFIG_UNIX)
250         struct socket           *ring_sock;
251 #endif
252
253         struct {
254                 unsigned                cached_cq_tail;
255                 unsigned                cq_entries;
256                 unsigned                cq_mask;
257                 atomic_t                cq_timeouts;
258                 struct wait_queue_head  cq_wait;
259                 struct fasync_struct    *cq_fasync;
260                 struct eventfd_ctx      *cq_ev_fd;
261         } ____cacheline_aligned_in_smp;
262
263         struct {
264                 struct mutex            uring_lock;
265                 wait_queue_head_t       wait;
266         } ____cacheline_aligned_in_smp;
267
268         struct {
269                 spinlock_t              completion_lock;
270                 bool                    poll_multi_file;
271                 /*
272                  * ->poll_list is protected by the ctx->uring_lock for
273                  * io_uring instances that don't use IORING_SETUP_SQPOLL.
274                  * For SQPOLL, only the single threaded io_sq_thread() will
275                  * manipulate the list, hence no extra locking is needed there.
276                  */
277                 struct list_head        poll_list;
278                 struct hlist_head       *cancel_hash;
279                 unsigned                cancel_hash_bits;
280
281                 spinlock_t              inflight_lock;
282                 struct list_head        inflight_list;
283         } ____cacheline_aligned_in_smp;
284 };
285
286 /*
287  * First field must be the file pointer in all the
288  * iocb unions! See also 'struct kiocb' in <linux/fs.h>
289  */
290 struct io_poll_iocb {
291         struct file                     *file;
292         struct wait_queue_head          *head;
293         __poll_t                        events;
294         bool                            done;
295         bool                            canceled;
296         struct wait_queue_entry         wait;
297 };
298
299 struct io_timeout_data {
300         struct io_kiocb                 *req;
301         struct hrtimer                  timer;
302         struct timespec64               ts;
303         enum hrtimer_mode               mode;
304         u32                             seq_offset;
305 };
306
307 struct io_async_connect {
308         struct sockaddr_storage         address;
309 };
310
311 struct io_async_msghdr {
312         struct iovec                    fast_iov[UIO_FASTIOV];
313         struct iovec                    *iov;
314         struct sockaddr __user          *uaddr;
315         struct msghdr                   msg;
316 };
317
318 struct io_async_rw {
319         struct iovec                    fast_iov[UIO_FASTIOV];
320         struct iovec                    *iov;
321         ssize_t                         nr_segs;
322         ssize_t                         size;
323 };
324
325 struct io_async_ctx {
326         struct io_uring_sqe             sqe;
327         union {
328                 struct io_async_rw      rw;
329                 struct io_async_msghdr  msg;
330                 struct io_async_connect connect;
331                 struct io_timeout_data  timeout;
332         };
333 };
334
335 /*
336  * NOTE! Each of the iocb union members has the file pointer
337  * as the first entry in their struct definition. So you can
338  * access the file pointer through any of the sub-structs,
339  * or directly as just 'ki_filp' in this struct.
340  */
341 struct io_kiocb {
342         union {
343                 struct file             *file;
344                 struct kiocb            rw;
345                 struct io_poll_iocb     poll;
346         };
347
348         const struct io_uring_sqe       *sqe;
349         struct io_async_ctx             *io;
350         struct file                     *ring_file;
351         int                             ring_fd;
352         bool                            has_user;
353         bool                            in_async;
354         bool                            needs_fixed_file;
355
356         struct io_ring_ctx      *ctx;
357         union {
358                 struct list_head        list;
359                 struct hlist_node       hash_node;
360         };
361         struct list_head        link_list;
362         unsigned int            flags;
363         refcount_t              refs;
364 #define REQ_F_NOWAIT            1       /* must not punt to workers */
365 #define REQ_F_IOPOLL_COMPLETED  2       /* polled IO has completed */
366 #define REQ_F_FIXED_FILE        4       /* ctx owns file */
367 #define REQ_F_LINK_NEXT         8       /* already grabbed next link */
368 #define REQ_F_IO_DRAIN          16      /* drain existing IO first */
369 #define REQ_F_IO_DRAINED        32      /* drain done */
370 #define REQ_F_LINK              64      /* linked sqes */
371 #define REQ_F_LINK_TIMEOUT      128     /* has linked timeout */
372 #define REQ_F_FAIL_LINK         256     /* fail rest of links */
373 #define REQ_F_DRAIN_LINK        512     /* link should be fully drained */
374 #define REQ_F_TIMEOUT           1024    /* timeout request */
375 #define REQ_F_ISREG             2048    /* regular file */
376 #define REQ_F_MUST_PUNT         4096    /* must be punted even for NONBLOCK */
377 #define REQ_F_TIMEOUT_NOSEQ     8192    /* no timeout sequence */
378 #define REQ_F_INFLIGHT          16384   /* on inflight list */
379 #define REQ_F_COMP_LOCKED       32768   /* completion under lock */
380 #define REQ_F_HARDLINK          65536   /* doesn't sever on completion < 0 */
381         u64                     user_data;
382         u32                     result;
383         u32                     sequence;
384
385         struct list_head        inflight_entry;
386
387         struct io_wq_work       work;
388 };
389
390 #define IO_PLUG_THRESHOLD               2
391 #define IO_IOPOLL_BATCH                 8
392
393 struct io_submit_state {
394         struct blk_plug         plug;
395
396         /*
397          * io_kiocb alloc cache
398          */
399         void                    *reqs[IO_IOPOLL_BATCH];
400         unsigned                int free_reqs;
401         unsigned                int cur_req;
402
403         /*
404          * File reference cache
405          */
406         struct file             *file;
407         unsigned int            fd;
408         unsigned int            has_refs;
409         unsigned int            used_refs;
410         unsigned int            ios_left;
411 };
412
413 static void io_wq_submit_work(struct io_wq_work **workptr);
414 static void io_cqring_fill_event(struct io_kiocb *req, long res);
415 static void __io_free_req(struct io_kiocb *req);
416 static void io_put_req(struct io_kiocb *req);
417 static void io_double_put_req(struct io_kiocb *req);
418 static void __io_double_put_req(struct io_kiocb *req);
419 static struct io_kiocb *io_prep_linked_timeout(struct io_kiocb *req);
420 static void io_queue_linked_timeout(struct io_kiocb *req);
421
422 static struct kmem_cache *req_cachep;
423
424 static const struct file_operations io_uring_fops;
425
426 struct sock *io_uring_get_socket(struct file *file)
427 {
428 #if defined(CONFIG_UNIX)
429         if (file->f_op == &io_uring_fops) {
430                 struct io_ring_ctx *ctx = file->private_data;
431
432                 return ctx->ring_sock->sk;
433         }
434 #endif
435         return NULL;
436 }
437 EXPORT_SYMBOL(io_uring_get_socket);
438
439 static void io_ring_ctx_ref_free(struct percpu_ref *ref)
440 {
441         struct io_ring_ctx *ctx = container_of(ref, struct io_ring_ctx, refs);
442
443         complete(&ctx->completions[0]);
444 }
445
446 static struct io_ring_ctx *io_ring_ctx_alloc(struct io_uring_params *p)
447 {
448         struct io_ring_ctx *ctx;
449         int hash_bits;
450
451         ctx = kzalloc(sizeof(*ctx), GFP_KERNEL);
452         if (!ctx)
453                 return NULL;
454
455         ctx->fallback_req = kmem_cache_alloc(req_cachep, GFP_KERNEL);
456         if (!ctx->fallback_req)
457                 goto err;
458
459         ctx->completions = kmalloc(2 * sizeof(struct completion), GFP_KERNEL);
460         if (!ctx->completions)
461                 goto err;
462
463         /*
464          * Use 5 bits less than the max cq entries, that should give us around
465          * 32 entries per hash list if totally full and uniformly spread.
466          */
467         hash_bits = ilog2(p->cq_entries);
468         hash_bits -= 5;
469         if (hash_bits <= 0)
470                 hash_bits = 1;
471         ctx->cancel_hash_bits = hash_bits;
472         ctx->cancel_hash = kmalloc((1U << hash_bits) * sizeof(struct hlist_head),
473                                         GFP_KERNEL);
474         if (!ctx->cancel_hash)
475                 goto err;
476         __hash_init(ctx->cancel_hash, 1U << hash_bits);
477
478         if (percpu_ref_init(&ctx->refs, io_ring_ctx_ref_free,
479                             PERCPU_REF_ALLOW_REINIT, GFP_KERNEL))
480                 goto err;
481
482         ctx->flags = p->flags;
483         init_waitqueue_head(&ctx->cq_wait);
484         INIT_LIST_HEAD(&ctx->cq_overflow_list);
485         init_completion(&ctx->completions[0]);
486         init_completion(&ctx->completions[1]);
487         mutex_init(&ctx->uring_lock);
488         init_waitqueue_head(&ctx->wait);
489         spin_lock_init(&ctx->completion_lock);
490         INIT_LIST_HEAD(&ctx->poll_list);
491         INIT_LIST_HEAD(&ctx->defer_list);
492         INIT_LIST_HEAD(&ctx->timeout_list);
493         init_waitqueue_head(&ctx->inflight_wait);
494         spin_lock_init(&ctx->inflight_lock);
495         INIT_LIST_HEAD(&ctx->inflight_list);
496         return ctx;
497 err:
498         if (ctx->fallback_req)
499                 kmem_cache_free(req_cachep, ctx->fallback_req);
500         kfree(ctx->completions);
501         kfree(ctx->cancel_hash);
502         kfree(ctx);
503         return NULL;
504 }
505
506 static inline bool __req_need_defer(struct io_kiocb *req)
507 {
508         struct io_ring_ctx *ctx = req->ctx;
509
510         return req->sequence != ctx->cached_cq_tail + ctx->cached_sq_dropped
511                                         + atomic_read(&ctx->cached_cq_overflow);
512 }
513
514 static inline bool req_need_defer(struct io_kiocb *req)
515 {
516         if ((req->flags & (REQ_F_IO_DRAIN|REQ_F_IO_DRAINED)) == REQ_F_IO_DRAIN)
517                 return __req_need_defer(req);
518
519         return false;
520 }
521
522 static struct io_kiocb *io_get_deferred_req(struct io_ring_ctx *ctx)
523 {
524         struct io_kiocb *req;
525
526         req = list_first_entry_or_null(&ctx->defer_list, struct io_kiocb, list);
527         if (req && !req_need_defer(req)) {
528                 list_del_init(&req->list);
529                 return req;
530         }
531
532         return NULL;
533 }
534
535 static struct io_kiocb *io_get_timeout_req(struct io_ring_ctx *ctx)
536 {
537         struct io_kiocb *req;
538
539         req = list_first_entry_or_null(&ctx->timeout_list, struct io_kiocb, list);
540         if (req) {
541                 if (req->flags & REQ_F_TIMEOUT_NOSEQ)
542                         return NULL;
543                 if (!__req_need_defer(req)) {
544                         list_del_init(&req->list);
545                         return req;
546                 }
547         }
548
549         return NULL;
550 }
551
552 static void __io_commit_cqring(struct io_ring_ctx *ctx)
553 {
554         struct io_rings *rings = ctx->rings;
555
556         if (ctx->cached_cq_tail != READ_ONCE(rings->cq.tail)) {
557                 /* order cqe stores with ring update */
558                 smp_store_release(&rings->cq.tail, ctx->cached_cq_tail);
559
560                 if (wq_has_sleeper(&ctx->cq_wait)) {
561                         wake_up_interruptible(&ctx->cq_wait);
562                         kill_fasync(&ctx->cq_fasync, SIGIO, POLL_IN);
563                 }
564         }
565 }
566
567 static inline bool io_sqe_needs_user(const struct io_uring_sqe *sqe)
568 {
569         u8 opcode = READ_ONCE(sqe->opcode);
570
571         return !(opcode == IORING_OP_READ_FIXED ||
572                  opcode == IORING_OP_WRITE_FIXED);
573 }
574
575 static inline bool io_prep_async_work(struct io_kiocb *req,
576                                       struct io_kiocb **link)
577 {
578         bool do_hashed = false;
579
580         if (req->sqe) {
581                 switch (req->sqe->opcode) {
582                 case IORING_OP_WRITEV:
583                 case IORING_OP_WRITE_FIXED:
584                         /* only regular files should be hashed for writes */
585                         if (req->flags & REQ_F_ISREG)
586                                 do_hashed = true;
587                         /* fall-through */
588                 case IORING_OP_READV:
589                 case IORING_OP_READ_FIXED:
590                 case IORING_OP_SENDMSG:
591                 case IORING_OP_RECVMSG:
592                 case IORING_OP_ACCEPT:
593                 case IORING_OP_POLL_ADD:
594                 case IORING_OP_CONNECT:
595                         /*
596                          * We know REQ_F_ISREG is not set on some of these
597                          * opcodes, but this enables us to keep the check in
598                          * just one place.
599                          */
600                         if (!(req->flags & REQ_F_ISREG))
601                                 req->work.flags |= IO_WQ_WORK_UNBOUND;
602                         break;
603                 }
604                 if (io_sqe_needs_user(req->sqe))
605                         req->work.flags |= IO_WQ_WORK_NEEDS_USER;
606         }
607
608         *link = io_prep_linked_timeout(req);
609         return do_hashed;
610 }
611
612 static inline void io_queue_async_work(struct io_kiocb *req)
613 {
614         struct io_ring_ctx *ctx = req->ctx;
615         struct io_kiocb *link;
616         bool do_hashed;
617
618         do_hashed = io_prep_async_work(req, &link);
619
620         trace_io_uring_queue_async_work(ctx, do_hashed, req, &req->work,
621                                         req->flags);
622         if (!do_hashed) {
623                 io_wq_enqueue(ctx->io_wq, &req->work);
624         } else {
625                 io_wq_enqueue_hashed(ctx->io_wq, &req->work,
626                                         file_inode(req->file));
627         }
628
629         if (link)
630                 io_queue_linked_timeout(link);
631 }
632
633 static void io_kill_timeout(struct io_kiocb *req)
634 {
635         int ret;
636
637         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
638         if (ret != -1) {
639                 atomic_inc(&req->ctx->cq_timeouts);
640                 list_del_init(&req->list);
641                 io_cqring_fill_event(req, 0);
642                 io_put_req(req);
643         }
644 }
645
646 static void io_kill_timeouts(struct io_ring_ctx *ctx)
647 {
648         struct io_kiocb *req, *tmp;
649
650         spin_lock_irq(&ctx->completion_lock);
651         list_for_each_entry_safe(req, tmp, &ctx->timeout_list, list)
652                 io_kill_timeout(req);
653         spin_unlock_irq(&ctx->completion_lock);
654 }
655
656 static void io_commit_cqring(struct io_ring_ctx *ctx)
657 {
658         struct io_kiocb *req;
659
660         while ((req = io_get_timeout_req(ctx)) != NULL)
661                 io_kill_timeout(req);
662
663         __io_commit_cqring(ctx);
664
665         while ((req = io_get_deferred_req(ctx)) != NULL) {
666                 req->flags |= REQ_F_IO_DRAINED;
667                 io_queue_async_work(req);
668         }
669 }
670
671 static struct io_uring_cqe *io_get_cqring(struct io_ring_ctx *ctx)
672 {
673         struct io_rings *rings = ctx->rings;
674         unsigned tail;
675
676         tail = ctx->cached_cq_tail;
677         /*
678          * writes to the cq entry need to come after reading head; the
679          * control dependency is enough as we're using WRITE_ONCE to
680          * fill the cq entry
681          */
682         if (tail - READ_ONCE(rings->cq.head) == rings->cq_ring_entries)
683                 return NULL;
684
685         ctx->cached_cq_tail++;
686         return &rings->cqes[tail & ctx->cq_mask];
687 }
688
689 static void io_cqring_ev_posted(struct io_ring_ctx *ctx)
690 {
691         if (waitqueue_active(&ctx->wait))
692                 wake_up(&ctx->wait);
693         if (waitqueue_active(&ctx->sqo_wait))
694                 wake_up(&ctx->sqo_wait);
695         if (ctx->cq_ev_fd)
696                 eventfd_signal(ctx->cq_ev_fd, 1);
697 }
698
699 /* Returns true if there are no backlogged entries after the flush */
700 static bool io_cqring_overflow_flush(struct io_ring_ctx *ctx, bool force)
701 {
702         struct io_rings *rings = ctx->rings;
703         struct io_uring_cqe *cqe;
704         struct io_kiocb *req;
705         unsigned long flags;
706         LIST_HEAD(list);
707
708         if (!force) {
709                 if (list_empty_careful(&ctx->cq_overflow_list))
710                         return true;
711                 if ((ctx->cached_cq_tail - READ_ONCE(rings->cq.head) ==
712                     rings->cq_ring_entries))
713                         return false;
714         }
715
716         spin_lock_irqsave(&ctx->completion_lock, flags);
717
718         /* if force is set, the ring is going away. always drop after that */
719         if (force)
720                 ctx->cq_overflow_flushed = true;
721
722         cqe = NULL;
723         while (!list_empty(&ctx->cq_overflow_list)) {
724                 cqe = io_get_cqring(ctx);
725                 if (!cqe && !force)
726                         break;
727
728                 req = list_first_entry(&ctx->cq_overflow_list, struct io_kiocb,
729                                                 list);
730                 list_move(&req->list, &list);
731                 if (cqe) {
732                         WRITE_ONCE(cqe->user_data, req->user_data);
733                         WRITE_ONCE(cqe->res, req->result);
734                         WRITE_ONCE(cqe->flags, 0);
735                 } else {
736                         WRITE_ONCE(ctx->rings->cq_overflow,
737                                 atomic_inc_return(&ctx->cached_cq_overflow));
738                 }
739         }
740
741         io_commit_cqring(ctx);
742         spin_unlock_irqrestore(&ctx->completion_lock, flags);
743         io_cqring_ev_posted(ctx);
744
745         while (!list_empty(&list)) {
746                 req = list_first_entry(&list, struct io_kiocb, list);
747                 list_del(&req->list);
748                 io_put_req(req);
749         }
750
751         return cqe != NULL;
752 }
753
754 static void io_cqring_fill_event(struct io_kiocb *req, long res)
755 {
756         struct io_ring_ctx *ctx = req->ctx;
757         struct io_uring_cqe *cqe;
758
759         trace_io_uring_complete(ctx, req->user_data, res);
760
761         /*
762          * If we can't get a cq entry, userspace overflowed the
763          * submission (by quite a lot). Increment the overflow count in
764          * the ring.
765          */
766         cqe = io_get_cqring(ctx);
767         if (likely(cqe)) {
768                 WRITE_ONCE(cqe->user_data, req->user_data);
769                 WRITE_ONCE(cqe->res, res);
770                 WRITE_ONCE(cqe->flags, 0);
771         } else if (ctx->cq_overflow_flushed) {
772                 WRITE_ONCE(ctx->rings->cq_overflow,
773                                 atomic_inc_return(&ctx->cached_cq_overflow));
774         } else {
775                 refcount_inc(&req->refs);
776                 req->result = res;
777                 list_add_tail(&req->list, &ctx->cq_overflow_list);
778         }
779 }
780
781 static void io_cqring_add_event(struct io_kiocb *req, long res)
782 {
783         struct io_ring_ctx *ctx = req->ctx;
784         unsigned long flags;
785
786         spin_lock_irqsave(&ctx->completion_lock, flags);
787         io_cqring_fill_event(req, res);
788         io_commit_cqring(ctx);
789         spin_unlock_irqrestore(&ctx->completion_lock, flags);
790
791         io_cqring_ev_posted(ctx);
792 }
793
794 static inline bool io_is_fallback_req(struct io_kiocb *req)
795 {
796         return req == (struct io_kiocb *)
797                         ((unsigned long) req->ctx->fallback_req & ~1UL);
798 }
799
800 static struct io_kiocb *io_get_fallback_req(struct io_ring_ctx *ctx)
801 {
802         struct io_kiocb *req;
803
804         req = ctx->fallback_req;
805         if (!test_and_set_bit_lock(0, (unsigned long *) ctx->fallback_req))
806                 return req;
807
808         return NULL;
809 }
810
811 static struct io_kiocb *io_get_req(struct io_ring_ctx *ctx,
812                                    struct io_submit_state *state)
813 {
814         gfp_t gfp = GFP_KERNEL | __GFP_NOWARN;
815         struct io_kiocb *req;
816
817         if (!percpu_ref_tryget(&ctx->refs))
818                 return NULL;
819
820         if (!state) {
821                 req = kmem_cache_alloc(req_cachep, gfp);
822                 if (unlikely(!req))
823                         goto fallback;
824         } else if (!state->free_reqs) {
825                 size_t sz;
826                 int ret;
827
828                 sz = min_t(size_t, state->ios_left, ARRAY_SIZE(state->reqs));
829                 ret = kmem_cache_alloc_bulk(req_cachep, gfp, sz, state->reqs);
830
831                 /*
832                  * Bulk alloc is all-or-nothing. If we fail to get a batch,
833                  * retry single alloc to be on the safe side.
834                  */
835                 if (unlikely(ret <= 0)) {
836                         state->reqs[0] = kmem_cache_alloc(req_cachep, gfp);
837                         if (!state->reqs[0])
838                                 goto fallback;
839                         ret = 1;
840                 }
841                 state->free_reqs = ret - 1;
842                 state->cur_req = 1;
843                 req = state->reqs[0];
844         } else {
845                 req = state->reqs[state->cur_req];
846                 state->free_reqs--;
847                 state->cur_req++;
848         }
849
850 got_it:
851         req->io = NULL;
852         req->ring_file = NULL;
853         req->file = NULL;
854         req->ctx = ctx;
855         req->flags = 0;
856         /* one is dropped after submission, the other at completion */
857         refcount_set(&req->refs, 2);
858         req->result = 0;
859         INIT_IO_WORK(&req->work, io_wq_submit_work);
860         return req;
861 fallback:
862         req = io_get_fallback_req(ctx);
863         if (req)
864                 goto got_it;
865         percpu_ref_put(&ctx->refs);
866         return NULL;
867 }
868
869 static void io_free_req_many(struct io_ring_ctx *ctx, void **reqs, int *nr)
870 {
871         if (*nr) {
872                 kmem_cache_free_bulk(req_cachep, *nr, reqs);
873                 percpu_ref_put_many(&ctx->refs, *nr);
874                 *nr = 0;
875         }
876 }
877
878 static void __io_free_req(struct io_kiocb *req)
879 {
880         struct io_ring_ctx *ctx = req->ctx;
881
882         if (req->io)
883                 kfree(req->io);
884         if (req->file && !(req->flags & REQ_F_FIXED_FILE))
885                 fput(req->file);
886         if (req->flags & REQ_F_INFLIGHT) {
887                 unsigned long flags;
888
889                 spin_lock_irqsave(&ctx->inflight_lock, flags);
890                 list_del(&req->inflight_entry);
891                 if (waitqueue_active(&ctx->inflight_wait))
892                         wake_up(&ctx->inflight_wait);
893                 spin_unlock_irqrestore(&ctx->inflight_lock, flags);
894         }
895         percpu_ref_put(&ctx->refs);
896         if (likely(!io_is_fallback_req(req)))
897                 kmem_cache_free(req_cachep, req);
898         else
899                 clear_bit_unlock(0, (unsigned long *) ctx->fallback_req);
900 }
901
902 static bool io_link_cancel_timeout(struct io_kiocb *req)
903 {
904         struct io_ring_ctx *ctx = req->ctx;
905         int ret;
906
907         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
908         if (ret != -1) {
909                 io_cqring_fill_event(req, -ECANCELED);
910                 io_commit_cqring(ctx);
911                 req->flags &= ~REQ_F_LINK;
912                 io_put_req(req);
913                 return true;
914         }
915
916         return false;
917 }
918
919 static void io_req_link_next(struct io_kiocb *req, struct io_kiocb **nxtptr)
920 {
921         struct io_ring_ctx *ctx = req->ctx;
922         bool wake_ev = false;
923
924         /* Already got next link */
925         if (req->flags & REQ_F_LINK_NEXT)
926                 return;
927
928         /*
929          * The list should never be empty when we are called here. But could
930          * potentially happen if the chain is messed up, check to be on the
931          * safe side.
932          */
933         while (!list_empty(&req->link_list)) {
934                 struct io_kiocb *nxt = list_first_entry(&req->link_list,
935                                                 struct io_kiocb, link_list);
936
937                 if (unlikely((req->flags & REQ_F_LINK_TIMEOUT) &&
938                              (nxt->flags & REQ_F_TIMEOUT))) {
939                         list_del_init(&nxt->link_list);
940                         wake_ev |= io_link_cancel_timeout(nxt);
941                         req->flags &= ~REQ_F_LINK_TIMEOUT;
942                         continue;
943                 }
944
945                 list_del_init(&req->link_list);
946                 if (!list_empty(&nxt->link_list))
947                         nxt->flags |= REQ_F_LINK;
948                 *nxtptr = nxt;
949                 break;
950         }
951
952         req->flags |= REQ_F_LINK_NEXT;
953         if (wake_ev)
954                 io_cqring_ev_posted(ctx);
955 }
956
957 /*
958  * Called if REQ_F_LINK is set, and we fail the head request
959  */
960 static void io_fail_links(struct io_kiocb *req)
961 {
962         struct io_ring_ctx *ctx = req->ctx;
963         unsigned long flags;
964
965         spin_lock_irqsave(&ctx->completion_lock, flags);
966
967         while (!list_empty(&req->link_list)) {
968                 struct io_kiocb *link = list_first_entry(&req->link_list,
969                                                 struct io_kiocb, link_list);
970
971                 list_del_init(&link->link_list);
972                 trace_io_uring_fail_link(req, link);
973
974                 if ((req->flags & REQ_F_LINK_TIMEOUT) &&
975                     link->sqe->opcode == IORING_OP_LINK_TIMEOUT) {
976                         io_link_cancel_timeout(link);
977                 } else {
978                         io_cqring_fill_event(link, -ECANCELED);
979                         __io_double_put_req(link);
980                 }
981                 req->flags &= ~REQ_F_LINK_TIMEOUT;
982         }
983
984         io_commit_cqring(ctx);
985         spin_unlock_irqrestore(&ctx->completion_lock, flags);
986         io_cqring_ev_posted(ctx);
987 }
988
989 static void io_req_find_next(struct io_kiocb *req, struct io_kiocb **nxt)
990 {
991         if (likely(!(req->flags & REQ_F_LINK)))
992                 return;
993
994         /*
995          * If LINK is set, we have dependent requests in this chain. If we
996          * didn't fail this request, queue the first one up, moving any other
997          * dependencies to the next request. In case of failure, fail the rest
998          * of the chain.
999          */
1000         if (req->flags & REQ_F_FAIL_LINK) {
1001                 io_fail_links(req);
1002         } else if ((req->flags & (REQ_F_LINK_TIMEOUT | REQ_F_COMP_LOCKED)) ==
1003                         REQ_F_LINK_TIMEOUT) {
1004                 struct io_ring_ctx *ctx = req->ctx;
1005                 unsigned long flags;
1006
1007                 /*
1008                  * If this is a timeout link, we could be racing with the
1009                  * timeout timer. Grab the completion lock for this case to
1010                  * protect against that.
1011                  */
1012                 spin_lock_irqsave(&ctx->completion_lock, flags);
1013                 io_req_link_next(req, nxt);
1014                 spin_unlock_irqrestore(&ctx->completion_lock, flags);
1015         } else {
1016                 io_req_link_next(req, nxt);
1017         }
1018 }
1019
1020 static void io_free_req(struct io_kiocb *req)
1021 {
1022         struct io_kiocb *nxt = NULL;
1023
1024         io_req_find_next(req, &nxt);
1025         __io_free_req(req);
1026
1027         if (nxt)
1028                 io_queue_async_work(nxt);
1029 }
1030
1031 /*
1032  * Drop reference to request, return next in chain (if there is one) if this
1033  * was the last reference to this request.
1034  */
1035 __attribute__((nonnull))
1036 static void io_put_req_find_next(struct io_kiocb *req, struct io_kiocb **nxtptr)
1037 {
1038         io_req_find_next(req, nxtptr);
1039
1040         if (refcount_dec_and_test(&req->refs))
1041                 __io_free_req(req);
1042 }
1043
1044 static void io_put_req(struct io_kiocb *req)
1045 {
1046         if (refcount_dec_and_test(&req->refs))
1047                 io_free_req(req);
1048 }
1049
1050 /*
1051  * Must only be used if we don't need to care about links, usually from
1052  * within the completion handling itself.
1053  */
1054 static void __io_double_put_req(struct io_kiocb *req)
1055 {
1056         /* drop both submit and complete references */
1057         if (refcount_sub_and_test(2, &req->refs))
1058                 __io_free_req(req);
1059 }
1060
1061 static void io_double_put_req(struct io_kiocb *req)
1062 {
1063         /* drop both submit and complete references */
1064         if (refcount_sub_and_test(2, &req->refs))
1065                 io_free_req(req);
1066 }
1067
1068 static unsigned io_cqring_events(struct io_ring_ctx *ctx, bool noflush)
1069 {
1070         struct io_rings *rings = ctx->rings;
1071
1072         /*
1073          * noflush == true is from the waitqueue handler, just ensure we wake
1074          * up the task, and the next invocation will flush the entries. We
1075          * cannot safely to it from here.
1076          */
1077         if (noflush && !list_empty(&ctx->cq_overflow_list))
1078                 return -1U;
1079
1080         io_cqring_overflow_flush(ctx, false);
1081
1082         /* See comment at the top of this file */
1083         smp_rmb();
1084         return READ_ONCE(rings->cq.tail) - READ_ONCE(rings->cq.head);
1085 }
1086
1087 static inline unsigned int io_sqring_entries(struct io_ring_ctx *ctx)
1088 {
1089         struct io_rings *rings = ctx->rings;
1090
1091         /* make sure SQ entry isn't read before tail */
1092         return smp_load_acquire(&rings->sq.tail) - ctx->cached_sq_head;
1093 }
1094
1095 /*
1096  * Find and free completed poll iocbs
1097  */
1098 static void io_iopoll_complete(struct io_ring_ctx *ctx, unsigned int *nr_events,
1099                                struct list_head *done)
1100 {
1101         void *reqs[IO_IOPOLL_BATCH];
1102         struct io_kiocb *req;
1103         int to_free;
1104
1105         to_free = 0;
1106         while (!list_empty(done)) {
1107                 req = list_first_entry(done, struct io_kiocb, list);
1108                 list_del(&req->list);
1109
1110                 io_cqring_fill_event(req, req->result);
1111                 (*nr_events)++;
1112
1113                 if (refcount_dec_and_test(&req->refs)) {
1114                         /* If we're not using fixed files, we have to pair the
1115                          * completion part with the file put. Use regular
1116                          * completions for those, only batch free for fixed
1117                          * file and non-linked commands.
1118                          */
1119                         if (((req->flags & (REQ_F_FIXED_FILE|REQ_F_LINK)) ==
1120                             REQ_F_FIXED_FILE) && !io_is_fallback_req(req) &&
1121                             !req->io) {
1122                                 reqs[to_free++] = req;
1123                                 if (to_free == ARRAY_SIZE(reqs))
1124                                         io_free_req_many(ctx, reqs, &to_free);
1125                         } else {
1126                                 io_free_req(req);
1127                         }
1128                 }
1129         }
1130
1131         io_commit_cqring(ctx);
1132         io_free_req_many(ctx, reqs, &to_free);
1133 }
1134
1135 static int io_do_iopoll(struct io_ring_ctx *ctx, unsigned int *nr_events,
1136                         long min)
1137 {
1138         struct io_kiocb *req, *tmp;
1139         LIST_HEAD(done);
1140         bool spin;
1141         int ret;
1142
1143         /*
1144          * Only spin for completions if we don't have multiple devices hanging
1145          * off our complete list, and we're under the requested amount.
1146          */
1147         spin = !ctx->poll_multi_file && *nr_events < min;
1148
1149         ret = 0;
1150         list_for_each_entry_safe(req, tmp, &ctx->poll_list, list) {
1151                 struct kiocb *kiocb = &req->rw;
1152
1153                 /*
1154                  * Move completed entries to our local list. If we find a
1155                  * request that requires polling, break out and complete
1156                  * the done list first, if we have entries there.
1157                  */
1158                 if (req->flags & REQ_F_IOPOLL_COMPLETED) {
1159                         list_move_tail(&req->list, &done);
1160                         continue;
1161                 }
1162                 if (!list_empty(&done))
1163                         break;
1164
1165                 ret = kiocb->ki_filp->f_op->iopoll(kiocb, spin);
1166                 if (ret < 0)
1167                         break;
1168
1169                 if (ret && spin)
1170                         spin = false;
1171                 ret = 0;
1172         }
1173
1174         if (!list_empty(&done))
1175                 io_iopoll_complete(ctx, nr_events, &done);
1176
1177         return ret;
1178 }
1179
1180 /*
1181  * Poll for a minimum of 'min' events. Note that if min == 0 we consider that a
1182  * non-spinning poll check - we'll still enter the driver poll loop, but only
1183  * as a non-spinning completion check.
1184  */
1185 static int io_iopoll_getevents(struct io_ring_ctx *ctx, unsigned int *nr_events,
1186                                 long min)
1187 {
1188         while (!list_empty(&ctx->poll_list) && !need_resched()) {
1189                 int ret;
1190
1191                 ret = io_do_iopoll(ctx, nr_events, min);
1192                 if (ret < 0)
1193                         return ret;
1194                 if (!min || *nr_events >= min)
1195                         return 0;
1196         }
1197
1198         return 1;
1199 }
1200
1201 /*
1202  * We can't just wait for polled events to come to us, we have to actively
1203  * find and complete them.
1204  */
1205 static void io_iopoll_reap_events(struct io_ring_ctx *ctx)
1206 {
1207         if (!(ctx->flags & IORING_SETUP_IOPOLL))
1208                 return;
1209
1210         mutex_lock(&ctx->uring_lock);
1211         while (!list_empty(&ctx->poll_list)) {
1212                 unsigned int nr_events = 0;
1213
1214                 io_iopoll_getevents(ctx, &nr_events, 1);
1215
1216                 /*
1217                  * Ensure we allow local-to-the-cpu processing to take place,
1218                  * in this case we need to ensure that we reap all events.
1219                  */
1220                 cond_resched();
1221         }
1222         mutex_unlock(&ctx->uring_lock);
1223 }
1224
1225 static int __io_iopoll_check(struct io_ring_ctx *ctx, unsigned *nr_events,
1226                             long min)
1227 {
1228         int iters = 0, ret = 0;
1229
1230         do {
1231                 int tmin = 0;
1232
1233                 /*
1234                  * Don't enter poll loop if we already have events pending.
1235                  * If we do, we can potentially be spinning for commands that
1236                  * already triggered a CQE (eg in error).
1237                  */
1238                 if (io_cqring_events(ctx, false))
1239                         break;
1240
1241                 /*
1242                  * If a submit got punted to a workqueue, we can have the
1243                  * application entering polling for a command before it gets
1244                  * issued. That app will hold the uring_lock for the duration
1245                  * of the poll right here, so we need to take a breather every
1246                  * now and then to ensure that the issue has a chance to add
1247                  * the poll to the issued list. Otherwise we can spin here
1248                  * forever, while the workqueue is stuck trying to acquire the
1249                  * very same mutex.
1250                  */
1251                 if (!(++iters & 7)) {
1252                         mutex_unlock(&ctx->uring_lock);
1253                         mutex_lock(&ctx->uring_lock);
1254                 }
1255
1256                 if (*nr_events < min)
1257                         tmin = min - *nr_events;
1258
1259                 ret = io_iopoll_getevents(ctx, nr_events, tmin);
1260                 if (ret <= 0)
1261                         break;
1262                 ret = 0;
1263         } while (min && !*nr_events && !need_resched());
1264
1265         return ret;
1266 }
1267
1268 static int io_iopoll_check(struct io_ring_ctx *ctx, unsigned *nr_events,
1269                            long min)
1270 {
1271         int ret;
1272
1273         /*
1274          * We disallow the app entering submit/complete with polling, but we
1275          * still need to lock the ring to prevent racing with polled issue
1276          * that got punted to a workqueue.
1277          */
1278         mutex_lock(&ctx->uring_lock);
1279         ret = __io_iopoll_check(ctx, nr_events, min);
1280         mutex_unlock(&ctx->uring_lock);
1281         return ret;
1282 }
1283
1284 static void kiocb_end_write(struct io_kiocb *req)
1285 {
1286         /*
1287          * Tell lockdep we inherited freeze protection from submission
1288          * thread.
1289          */
1290         if (req->flags & REQ_F_ISREG) {
1291                 struct inode *inode = file_inode(req->file);
1292
1293                 __sb_writers_acquired(inode->i_sb, SB_FREEZE_WRITE);
1294         }
1295         file_end_write(req->file);
1296 }
1297
1298 static inline void req_set_fail_links(struct io_kiocb *req)
1299 {
1300         if ((req->flags & (REQ_F_LINK | REQ_F_HARDLINK)) == REQ_F_LINK)
1301                 req->flags |= REQ_F_FAIL_LINK;
1302 }
1303
1304 static void io_complete_rw_common(struct kiocb *kiocb, long res)
1305 {
1306         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
1307
1308         if (kiocb->ki_flags & IOCB_WRITE)
1309                 kiocb_end_write(req);
1310
1311         if (res != req->result)
1312                 req_set_fail_links(req);
1313         io_cqring_add_event(req, res);
1314 }
1315
1316 static void io_complete_rw(struct kiocb *kiocb, long res, long res2)
1317 {
1318         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
1319
1320         io_complete_rw_common(kiocb, res);
1321         io_put_req(req);
1322 }
1323
1324 static struct io_kiocb *__io_complete_rw(struct kiocb *kiocb, long res)
1325 {
1326         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
1327         struct io_kiocb *nxt = NULL;
1328
1329         io_complete_rw_common(kiocb, res);
1330         io_put_req_find_next(req, &nxt);
1331
1332         return nxt;
1333 }
1334
1335 static void io_complete_rw_iopoll(struct kiocb *kiocb, long res, long res2)
1336 {
1337         struct io_kiocb *req = container_of(kiocb, struct io_kiocb, rw);
1338
1339         if (kiocb->ki_flags & IOCB_WRITE)
1340                 kiocb_end_write(req);
1341
1342         if (res != req->result)
1343                 req_set_fail_links(req);
1344         req->result = res;
1345         if (res != -EAGAIN)
1346                 req->flags |= REQ_F_IOPOLL_COMPLETED;
1347 }
1348
1349 /*
1350  * After the iocb has been issued, it's safe to be found on the poll list.
1351  * Adding the kiocb to the list AFTER submission ensures that we don't
1352  * find it from a io_iopoll_getevents() thread before the issuer is done
1353  * accessing the kiocb cookie.
1354  */
1355 static void io_iopoll_req_issued(struct io_kiocb *req)
1356 {
1357         struct io_ring_ctx *ctx = req->ctx;
1358
1359         /*
1360          * Track whether we have multiple files in our lists. This will impact
1361          * how we do polling eventually, not spinning if we're on potentially
1362          * different devices.
1363          */
1364         if (list_empty(&ctx->poll_list)) {
1365                 ctx->poll_multi_file = false;
1366         } else if (!ctx->poll_multi_file) {
1367                 struct io_kiocb *list_req;
1368
1369                 list_req = list_first_entry(&ctx->poll_list, struct io_kiocb,
1370                                                 list);
1371                 if (list_req->rw.ki_filp != req->rw.ki_filp)
1372                         ctx->poll_multi_file = true;
1373         }
1374
1375         /*
1376          * For fast devices, IO may have already completed. If it has, add
1377          * it to the front so we find it first.
1378          */
1379         if (req->flags & REQ_F_IOPOLL_COMPLETED)
1380                 list_add(&req->list, &ctx->poll_list);
1381         else
1382                 list_add_tail(&req->list, &ctx->poll_list);
1383 }
1384
1385 static void io_file_put(struct io_submit_state *state)
1386 {
1387         if (state->file) {
1388                 int diff = state->has_refs - state->used_refs;
1389
1390                 if (diff)
1391                         fput_many(state->file, diff);
1392                 state->file = NULL;
1393         }
1394 }
1395
1396 /*
1397  * Get as many references to a file as we have IOs left in this submission,
1398  * assuming most submissions are for one file, or at least that each file
1399  * has more than one submission.
1400  */
1401 static struct file *io_file_get(struct io_submit_state *state, int fd)
1402 {
1403         if (!state)
1404                 return fget(fd);
1405
1406         if (state->file) {
1407                 if (state->fd == fd) {
1408                         state->used_refs++;
1409                         state->ios_left--;
1410                         return state->file;
1411                 }
1412                 io_file_put(state);
1413         }
1414         state->file = fget_many(fd, state->ios_left);
1415         if (!state->file)
1416                 return NULL;
1417
1418         state->fd = fd;
1419         state->has_refs = state->ios_left;
1420         state->used_refs = 1;
1421         state->ios_left--;
1422         return state->file;
1423 }
1424
1425 /*
1426  * If we tracked the file through the SCM inflight mechanism, we could support
1427  * any file. For now, just ensure that anything potentially problematic is done
1428  * inline.
1429  */
1430 static bool io_file_supports_async(struct file *file)
1431 {
1432         umode_t mode = file_inode(file)->i_mode;
1433
1434         if (S_ISBLK(mode) || S_ISCHR(mode) || S_ISSOCK(mode))
1435                 return true;
1436         if (S_ISREG(mode) && file->f_op != &io_uring_fops)
1437                 return true;
1438
1439         return false;
1440 }
1441
1442 static int io_prep_rw(struct io_kiocb *req, bool force_nonblock)
1443 {
1444         const struct io_uring_sqe *sqe = req->sqe;
1445         struct io_ring_ctx *ctx = req->ctx;
1446         struct kiocb *kiocb = &req->rw;
1447         unsigned ioprio;
1448         int ret;
1449
1450         if (!req->file)
1451                 return -EBADF;
1452
1453         if (S_ISREG(file_inode(req->file)->i_mode))
1454                 req->flags |= REQ_F_ISREG;
1455
1456         kiocb->ki_pos = READ_ONCE(sqe->off);
1457         kiocb->ki_flags = iocb_flags(kiocb->ki_filp);
1458         kiocb->ki_hint = ki_hint_validate(file_write_hint(kiocb->ki_filp));
1459
1460         ioprio = READ_ONCE(sqe->ioprio);
1461         if (ioprio) {
1462                 ret = ioprio_check_cap(ioprio);
1463                 if (ret)
1464                         return ret;
1465
1466                 kiocb->ki_ioprio = ioprio;
1467         } else
1468                 kiocb->ki_ioprio = get_current_ioprio();
1469
1470         ret = kiocb_set_rw_flags(kiocb, READ_ONCE(sqe->rw_flags));
1471         if (unlikely(ret))
1472                 return ret;
1473
1474         /* don't allow async punt if RWF_NOWAIT was requested */
1475         if ((kiocb->ki_flags & IOCB_NOWAIT) ||
1476             (req->file->f_flags & O_NONBLOCK))
1477                 req->flags |= REQ_F_NOWAIT;
1478
1479         if (force_nonblock)
1480                 kiocb->ki_flags |= IOCB_NOWAIT;
1481
1482         if (ctx->flags & IORING_SETUP_IOPOLL) {
1483                 if (!(kiocb->ki_flags & IOCB_DIRECT) ||
1484                     !kiocb->ki_filp->f_op->iopoll)
1485                         return -EOPNOTSUPP;
1486
1487                 kiocb->ki_flags |= IOCB_HIPRI;
1488                 kiocb->ki_complete = io_complete_rw_iopoll;
1489                 req->result = 0;
1490         } else {
1491                 if (kiocb->ki_flags & IOCB_HIPRI)
1492                         return -EINVAL;
1493                 kiocb->ki_complete = io_complete_rw;
1494         }
1495         return 0;
1496 }
1497
1498 static inline void io_rw_done(struct kiocb *kiocb, ssize_t ret)
1499 {
1500         switch (ret) {
1501         case -EIOCBQUEUED:
1502                 break;
1503         case -ERESTARTSYS:
1504         case -ERESTARTNOINTR:
1505         case -ERESTARTNOHAND:
1506         case -ERESTART_RESTARTBLOCK:
1507                 /*
1508                  * We can't just restart the syscall, since previously
1509                  * submitted sqes may already be in progress. Just fail this
1510                  * IO with EINTR.
1511                  */
1512                 ret = -EINTR;
1513                 /* fall through */
1514         default:
1515                 kiocb->ki_complete(kiocb, ret, 0);
1516         }
1517 }
1518
1519 static void kiocb_done(struct kiocb *kiocb, ssize_t ret, struct io_kiocb **nxt,
1520                        bool in_async)
1521 {
1522         if (in_async && ret >= 0 && kiocb->ki_complete == io_complete_rw)
1523                 *nxt = __io_complete_rw(kiocb, ret);
1524         else
1525                 io_rw_done(kiocb, ret);
1526 }
1527
1528 static ssize_t io_import_fixed(struct io_ring_ctx *ctx, int rw,
1529                                const struct io_uring_sqe *sqe,
1530                                struct iov_iter *iter)
1531 {
1532         size_t len = READ_ONCE(sqe->len);
1533         struct io_mapped_ubuf *imu;
1534         unsigned index, buf_index;
1535         size_t offset;
1536         u64 buf_addr;
1537
1538         /* attempt to use fixed buffers without having provided iovecs */
1539         if (unlikely(!ctx->user_bufs))
1540                 return -EFAULT;
1541
1542         buf_index = READ_ONCE(sqe->buf_index);
1543         if (unlikely(buf_index >= ctx->nr_user_bufs))
1544                 return -EFAULT;
1545
1546         index = array_index_nospec(buf_index, ctx->nr_user_bufs);
1547         imu = &ctx->user_bufs[index];
1548         buf_addr = READ_ONCE(sqe->addr);
1549
1550         /* overflow */
1551         if (buf_addr + len < buf_addr)
1552                 return -EFAULT;
1553         /* not inside the mapped region */
1554         if (buf_addr < imu->ubuf || buf_addr + len > imu->ubuf + imu->len)
1555                 return -EFAULT;
1556
1557         /*
1558          * May not be a start of buffer, set size appropriately
1559          * and advance us to the beginning.
1560          */
1561         offset = buf_addr - imu->ubuf;
1562         iov_iter_bvec(iter, rw, imu->bvec, imu->nr_bvecs, offset + len);
1563
1564         if (offset) {
1565                 /*
1566                  * Don't use iov_iter_advance() here, as it's really slow for
1567                  * using the latter parts of a big fixed buffer - it iterates
1568                  * over each segment manually. We can cheat a bit here, because
1569                  * we know that:
1570                  *
1571                  * 1) it's a BVEC iter, we set it up
1572                  * 2) all bvecs are PAGE_SIZE in size, except potentially the
1573                  *    first and last bvec
1574                  *
1575                  * So just find our index, and adjust the iterator afterwards.
1576                  * If the offset is within the first bvec (or the whole first
1577                  * bvec, just use iov_iter_advance(). This makes it easier
1578                  * since we can just skip the first segment, which may not
1579                  * be PAGE_SIZE aligned.
1580                  */
1581                 const struct bio_vec *bvec = imu->bvec;
1582
1583                 if (offset <= bvec->bv_len) {
1584                         iov_iter_advance(iter, offset);
1585                 } else {
1586                         unsigned long seg_skip;
1587
1588                         /* skip first vec */
1589                         offset -= bvec->bv_len;
1590                         seg_skip = 1 + (offset >> PAGE_SHIFT);
1591
1592                         iter->bvec = bvec + seg_skip;
1593                         iter->nr_segs -= seg_skip;
1594                         iter->count -= bvec->bv_len + offset;
1595                         iter->iov_offset = offset & ~PAGE_MASK;
1596                 }
1597         }
1598
1599         return len;
1600 }
1601
1602 static ssize_t io_import_iovec(int rw, struct io_kiocb *req,
1603                                struct iovec **iovec, struct iov_iter *iter)
1604 {
1605         const struct io_uring_sqe *sqe = req->sqe;
1606         void __user *buf = u64_to_user_ptr(READ_ONCE(sqe->addr));
1607         size_t sqe_len = READ_ONCE(sqe->len);
1608         u8 opcode;
1609
1610         /*
1611          * We're reading ->opcode for the second time, but the first read
1612          * doesn't care whether it's _FIXED or not, so it doesn't matter
1613          * whether ->opcode changes concurrently. The first read does care
1614          * about whether it is a READ or a WRITE, so we don't trust this read
1615          * for that purpose and instead let the caller pass in the read/write
1616          * flag.
1617          */
1618         opcode = READ_ONCE(sqe->opcode);
1619         if (opcode == IORING_OP_READ_FIXED || opcode == IORING_OP_WRITE_FIXED) {
1620                 *iovec = NULL;
1621                 return io_import_fixed(req->ctx, rw, sqe, iter);
1622         }
1623
1624         if (req->io) {
1625                 struct io_async_rw *iorw = &req->io->rw;
1626
1627                 *iovec = iorw->iov;
1628                 iov_iter_init(iter, rw, *iovec, iorw->nr_segs, iorw->size);
1629                 if (iorw->iov == iorw->fast_iov)
1630                         *iovec = NULL;
1631                 return iorw->size;
1632         }
1633
1634         if (!req->has_user)
1635                 return -EFAULT;
1636
1637 #ifdef CONFIG_COMPAT
1638         if (req->ctx->compat)
1639                 return compat_import_iovec(rw, buf, sqe_len, UIO_FASTIOV,
1640                                                 iovec, iter);
1641 #endif
1642
1643         return import_iovec(rw, buf, sqe_len, UIO_FASTIOV, iovec, iter);
1644 }
1645
1646 /*
1647  * For files that don't have ->read_iter() and ->write_iter(), handle them
1648  * by looping over ->read() or ->write() manually.
1649  */
1650 static ssize_t loop_rw_iter(int rw, struct file *file, struct kiocb *kiocb,
1651                            struct iov_iter *iter)
1652 {
1653         ssize_t ret = 0;
1654
1655         /*
1656          * Don't support polled IO through this interface, and we can't
1657          * support non-blocking either. For the latter, this just causes
1658          * the kiocb to be handled from an async context.
1659          */
1660         if (kiocb->ki_flags & IOCB_HIPRI)
1661                 return -EOPNOTSUPP;
1662         if (kiocb->ki_flags & IOCB_NOWAIT)
1663                 return -EAGAIN;
1664
1665         while (iov_iter_count(iter)) {
1666                 struct iovec iovec;
1667                 ssize_t nr;
1668
1669                 if (!iov_iter_is_bvec(iter)) {
1670                         iovec = iov_iter_iovec(iter);
1671                 } else {
1672                         /* fixed buffers import bvec */
1673                         iovec.iov_base = kmap(iter->bvec->bv_page)
1674                                                 + iter->iov_offset;
1675                         iovec.iov_len = min(iter->count,
1676                                         iter->bvec->bv_len - iter->iov_offset);
1677                 }
1678
1679                 if (rw == READ) {
1680                         nr = file->f_op->read(file, iovec.iov_base,
1681                                               iovec.iov_len, &kiocb->ki_pos);
1682                 } else {
1683                         nr = file->f_op->write(file, iovec.iov_base,
1684                                                iovec.iov_len, &kiocb->ki_pos);
1685                 }
1686
1687                 if (iov_iter_is_bvec(iter))
1688                         kunmap(iter->bvec->bv_page);
1689
1690                 if (nr < 0) {
1691                         if (!ret)
1692                                 ret = nr;
1693                         break;
1694                 }
1695                 ret += nr;
1696                 if (nr != iovec.iov_len)
1697                         break;
1698                 iov_iter_advance(iter, nr);
1699         }
1700
1701         return ret;
1702 }
1703
1704 static void io_req_map_io(struct io_kiocb *req, ssize_t io_size,
1705                           struct iovec *iovec, struct iovec *fast_iov,
1706                           struct iov_iter *iter)
1707 {
1708         req->io->rw.nr_segs = iter->nr_segs;
1709         req->io->rw.size = io_size;
1710         req->io->rw.iov = iovec;
1711         if (!req->io->rw.iov) {
1712                 req->io->rw.iov = req->io->rw.fast_iov;
1713                 memcpy(req->io->rw.iov, fast_iov,
1714                         sizeof(struct iovec) * iter->nr_segs);
1715         }
1716 }
1717
1718 static int io_setup_async_io(struct io_kiocb *req, ssize_t io_size,
1719                              struct iovec *iovec, struct iovec *fast_iov,
1720                              struct iov_iter *iter)
1721 {
1722         req->io = kmalloc(sizeof(*req->io), GFP_KERNEL);
1723         if (req->io) {
1724                 io_req_map_io(req, io_size, iovec, fast_iov, iter);
1725                 memcpy(&req->io->sqe, req->sqe, sizeof(req->io->sqe));
1726                 req->sqe = &req->io->sqe;
1727                 return 0;
1728         }
1729
1730         return -ENOMEM;
1731 }
1732
1733 static int io_read_prep(struct io_kiocb *req, struct iovec **iovec,
1734                         struct iov_iter *iter, bool force_nonblock)
1735 {
1736         ssize_t ret;
1737
1738         ret = io_prep_rw(req, force_nonblock);
1739         if (ret)
1740                 return ret;
1741
1742         if (unlikely(!(req->file->f_mode & FMODE_READ)))
1743                 return -EBADF;
1744
1745         return io_import_iovec(READ, req, iovec, iter);
1746 }
1747
1748 static int io_read(struct io_kiocb *req, struct io_kiocb **nxt,
1749                    bool force_nonblock)
1750 {
1751         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
1752         struct kiocb *kiocb = &req->rw;
1753         struct iov_iter iter;
1754         struct file *file;
1755         size_t iov_count;
1756         ssize_t io_size, ret;
1757
1758         if (!req->io) {
1759                 ret = io_read_prep(req, &iovec, &iter, force_nonblock);
1760                 if (ret < 0)
1761                         return ret;
1762         } else {
1763                 ret = io_import_iovec(READ, req, &iovec, &iter);
1764                 if (ret < 0)
1765                         return ret;
1766         }
1767
1768         file = req->file;
1769         io_size = ret;
1770         if (req->flags & REQ_F_LINK)
1771                 req->result = io_size;
1772
1773         /*
1774          * If the file doesn't support async, mark it as REQ_F_MUST_PUNT so
1775          * we know to async punt it even if it was opened O_NONBLOCK
1776          */
1777         if (force_nonblock && !io_file_supports_async(file)) {
1778                 req->flags |= REQ_F_MUST_PUNT;
1779                 goto copy_iov;
1780         }
1781
1782         iov_count = iov_iter_count(&iter);
1783         ret = rw_verify_area(READ, file, &kiocb->ki_pos, iov_count);
1784         if (!ret) {
1785                 ssize_t ret2;
1786
1787                 if (file->f_op->read_iter)
1788                         ret2 = call_read_iter(file, kiocb, &iter);
1789                 else
1790                         ret2 = loop_rw_iter(READ, file, kiocb, &iter);
1791
1792                 /*
1793                  * In case of a short read, punt to async. This can happen
1794                  * if we have data partially cached. Alternatively we can
1795                  * return the short read, in which case the application will
1796                  * need to issue another SQE and wait for it. That SQE will
1797                  * need async punt anyway, so it's more efficient to do it
1798                  * here.
1799                  */
1800                 if (force_nonblock && !(req->flags & REQ_F_NOWAIT) &&
1801                     (req->flags & REQ_F_ISREG) &&
1802                     ret2 > 0 && ret2 < io_size)
1803                         ret2 = -EAGAIN;
1804                 /* Catch -EAGAIN return for forced non-blocking submission */
1805                 if (!force_nonblock || ret2 != -EAGAIN) {
1806                         kiocb_done(kiocb, ret2, nxt, req->in_async);
1807                 } else {
1808 copy_iov:
1809                         ret = io_setup_async_io(req, io_size, iovec,
1810                                                 inline_vecs, &iter);
1811                         if (ret)
1812                                 goto out_free;
1813                         return -EAGAIN;
1814                 }
1815         }
1816 out_free:
1817         kfree(iovec);
1818         return ret;
1819 }
1820
1821 static int io_write_prep(struct io_kiocb *req, struct iovec **iovec,
1822                          struct iov_iter *iter, bool force_nonblock)
1823 {
1824         ssize_t ret;
1825
1826         ret = io_prep_rw(req, force_nonblock);
1827         if (ret)
1828                 return ret;
1829
1830         if (unlikely(!(req->file->f_mode & FMODE_WRITE)))
1831                 return -EBADF;
1832
1833         return io_import_iovec(WRITE, req, iovec, iter);
1834 }
1835
1836 static int io_write(struct io_kiocb *req, struct io_kiocb **nxt,
1837                     bool force_nonblock)
1838 {
1839         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
1840         struct kiocb *kiocb = &req->rw;
1841         struct iov_iter iter;
1842         struct file *file;
1843         size_t iov_count;
1844         ssize_t ret, io_size;
1845
1846         if (!req->io) {
1847                 ret = io_write_prep(req, &iovec, &iter, force_nonblock);
1848                 if (ret < 0)
1849                         return ret;
1850         } else {
1851                 ret = io_import_iovec(WRITE, req, &iovec, &iter);
1852                 if (ret < 0)
1853                         return ret;
1854         }
1855
1856         file = kiocb->ki_filp;
1857         io_size = ret;
1858         if (req->flags & REQ_F_LINK)
1859                 req->result = io_size;
1860
1861         /*
1862          * If the file doesn't support async, mark it as REQ_F_MUST_PUNT so
1863          * we know to async punt it even if it was opened O_NONBLOCK
1864          */
1865         if (force_nonblock && !io_file_supports_async(req->file)) {
1866                 req->flags |= REQ_F_MUST_PUNT;
1867                 goto copy_iov;
1868         }
1869
1870         /* file path doesn't support NOWAIT for non-direct_IO */
1871         if (force_nonblock && !(kiocb->ki_flags & IOCB_DIRECT) &&
1872             (req->flags & REQ_F_ISREG))
1873                 goto copy_iov;
1874
1875         iov_count = iov_iter_count(&iter);
1876         ret = rw_verify_area(WRITE, file, &kiocb->ki_pos, iov_count);
1877         if (!ret) {
1878                 ssize_t ret2;
1879
1880                 /*
1881                  * Open-code file_start_write here to grab freeze protection,
1882                  * which will be released by another thread in
1883                  * io_complete_rw().  Fool lockdep by telling it the lock got
1884                  * released so that it doesn't complain about the held lock when
1885                  * we return to userspace.
1886                  */
1887                 if (req->flags & REQ_F_ISREG) {
1888                         __sb_start_write(file_inode(file)->i_sb,
1889                                                 SB_FREEZE_WRITE, true);
1890                         __sb_writers_release(file_inode(file)->i_sb,
1891                                                 SB_FREEZE_WRITE);
1892                 }
1893                 kiocb->ki_flags |= IOCB_WRITE;
1894
1895                 if (file->f_op->write_iter)
1896                         ret2 = call_write_iter(file, kiocb, &iter);
1897                 else
1898                         ret2 = loop_rw_iter(WRITE, file, kiocb, &iter);
1899                 if (!force_nonblock || ret2 != -EAGAIN) {
1900                         kiocb_done(kiocb, ret2, nxt, req->in_async);
1901                 } else {
1902 copy_iov:
1903                         ret = io_setup_async_io(req, io_size, iovec,
1904                                                 inline_vecs, &iter);
1905                         if (ret)
1906                                 goto out_free;
1907                         return -EAGAIN;
1908                 }
1909         }
1910 out_free:
1911         kfree(iovec);
1912         return ret;
1913 }
1914
1915 /*
1916  * IORING_OP_NOP just posts a completion event, nothing else.
1917  */
1918 static int io_nop(struct io_kiocb *req)
1919 {
1920         struct io_ring_ctx *ctx = req->ctx;
1921
1922         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1923                 return -EINVAL;
1924
1925         io_cqring_add_event(req, 0);
1926         io_put_req(req);
1927         return 0;
1928 }
1929
1930 static int io_prep_fsync(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1931 {
1932         struct io_ring_ctx *ctx = req->ctx;
1933
1934         if (!req->file)
1935                 return -EBADF;
1936
1937         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1938                 return -EINVAL;
1939         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
1940                 return -EINVAL;
1941
1942         return 0;
1943 }
1944
1945 static int io_fsync(struct io_kiocb *req, const struct io_uring_sqe *sqe,
1946                     struct io_kiocb **nxt, bool force_nonblock)
1947 {
1948         loff_t sqe_off = READ_ONCE(sqe->off);
1949         loff_t sqe_len = READ_ONCE(sqe->len);
1950         loff_t end = sqe_off + sqe_len;
1951         unsigned fsync_flags;
1952         int ret;
1953
1954         fsync_flags = READ_ONCE(sqe->fsync_flags);
1955         if (unlikely(fsync_flags & ~IORING_FSYNC_DATASYNC))
1956                 return -EINVAL;
1957
1958         ret = io_prep_fsync(req, sqe);
1959         if (ret)
1960                 return ret;
1961
1962         /* fsync always requires a blocking context */
1963         if (force_nonblock)
1964                 return -EAGAIN;
1965
1966         ret = vfs_fsync_range(req->rw.ki_filp, sqe_off,
1967                                 end > 0 ? end : LLONG_MAX,
1968                                 fsync_flags & IORING_FSYNC_DATASYNC);
1969
1970         if (ret < 0)
1971                 req_set_fail_links(req);
1972         io_cqring_add_event(req, ret);
1973         io_put_req_find_next(req, nxt);
1974         return 0;
1975 }
1976
1977 static int io_prep_sfr(struct io_kiocb *req, const struct io_uring_sqe *sqe)
1978 {
1979         struct io_ring_ctx *ctx = req->ctx;
1980         int ret = 0;
1981
1982         if (!req->file)
1983                 return -EBADF;
1984
1985         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
1986                 return -EINVAL;
1987         if (unlikely(sqe->addr || sqe->ioprio || sqe->buf_index))
1988                 return -EINVAL;
1989
1990         return ret;
1991 }
1992
1993 static int io_sync_file_range(struct io_kiocb *req,
1994                               const struct io_uring_sqe *sqe,
1995                               struct io_kiocb **nxt,
1996                               bool force_nonblock)
1997 {
1998         loff_t sqe_off;
1999         loff_t sqe_len;
2000         unsigned flags;
2001         int ret;
2002
2003         ret = io_prep_sfr(req, sqe);
2004         if (ret)
2005                 return ret;
2006
2007         /* sync_file_range always requires a blocking context */
2008         if (force_nonblock)
2009                 return -EAGAIN;
2010
2011         sqe_off = READ_ONCE(sqe->off);
2012         sqe_len = READ_ONCE(sqe->len);
2013         flags = READ_ONCE(sqe->sync_range_flags);
2014
2015         ret = sync_file_range(req->rw.ki_filp, sqe_off, sqe_len, flags);
2016
2017         if (ret < 0)
2018                 req_set_fail_links(req);
2019         io_cqring_add_event(req, ret);
2020         io_put_req_find_next(req, nxt);
2021         return 0;
2022 }
2023
2024 static int io_sendmsg_prep(struct io_kiocb *req, struct io_async_ctx *io)
2025 {
2026 #if defined(CONFIG_NET)
2027         const struct io_uring_sqe *sqe = req->sqe;
2028         struct user_msghdr __user *msg;
2029         unsigned flags;
2030
2031         flags = READ_ONCE(sqe->msg_flags);
2032         msg = (struct user_msghdr __user *)(unsigned long) READ_ONCE(sqe->addr);
2033         io->msg.iov = io->msg.fast_iov;
2034         return sendmsg_copy_msghdr(&io->msg.msg, msg, flags, &io->msg.iov);
2035 #else
2036         return 0;
2037 #endif
2038 }
2039
2040 static int io_sendmsg(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2041                       struct io_kiocb **nxt, bool force_nonblock)
2042 {
2043 #if defined(CONFIG_NET)
2044         struct io_async_msghdr *kmsg = NULL;
2045         struct socket *sock;
2046         int ret;
2047
2048         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
2049                 return -EINVAL;
2050
2051         sock = sock_from_file(req->file, &ret);
2052         if (sock) {
2053                 struct io_async_ctx io, *copy;
2054                 struct sockaddr_storage addr;
2055                 unsigned flags;
2056
2057                 flags = READ_ONCE(sqe->msg_flags);
2058                 if (flags & MSG_DONTWAIT)
2059                         req->flags |= REQ_F_NOWAIT;
2060                 else if (force_nonblock)
2061                         flags |= MSG_DONTWAIT;
2062
2063                 if (req->io) {
2064                         kmsg = &req->io->msg;
2065                         kmsg->msg.msg_name = &addr;
2066                         /* if iov is set, it's allocated already */
2067                         if (!kmsg->iov)
2068                                 kmsg->iov = kmsg->fast_iov;
2069                         kmsg->msg.msg_iter.iov = kmsg->iov;
2070                 } else {
2071                         kmsg = &io.msg;
2072                         kmsg->msg.msg_name = &addr;
2073                         ret = io_sendmsg_prep(req, &io);
2074                         if (ret)
2075                                 goto out;
2076                 }
2077
2078                 ret = __sys_sendmsg_sock(sock, &kmsg->msg, flags);
2079                 if (force_nonblock && ret == -EAGAIN) {
2080                         copy = kmalloc(sizeof(*copy), GFP_KERNEL);
2081                         if (!copy) {
2082                                 ret = -ENOMEM;
2083                                 goto out;
2084                         }
2085                         memcpy(&copy->msg, &io.msg, sizeof(copy->msg));
2086                         req->io = copy;
2087                         memcpy(&req->io->sqe, req->sqe, sizeof(*req->sqe));
2088                         req->sqe = &req->io->sqe;
2089                         return -EAGAIN;
2090                 }
2091                 if (ret == -ERESTARTSYS)
2092                         ret = -EINTR;
2093         }
2094
2095 out:
2096         if (kmsg && kmsg->iov != kmsg->fast_iov)
2097                 kfree(kmsg->iov);
2098         io_cqring_add_event(req, ret);
2099         if (ret < 0)
2100                 req_set_fail_links(req);
2101         io_put_req_find_next(req, nxt);
2102         return 0;
2103 #else
2104         return -EOPNOTSUPP;
2105 #endif
2106 }
2107
2108 static int io_recvmsg_prep(struct io_kiocb *req, struct io_async_ctx *io)
2109 {
2110 #if defined(CONFIG_NET)
2111         const struct io_uring_sqe *sqe = req->sqe;
2112         struct user_msghdr __user *msg;
2113         unsigned flags;
2114
2115         flags = READ_ONCE(sqe->msg_flags);
2116         msg = (struct user_msghdr __user *)(unsigned long) READ_ONCE(sqe->addr);
2117         io->msg.iov = io->msg.fast_iov;
2118         return recvmsg_copy_msghdr(&io->msg.msg, msg, flags, &io->msg.uaddr,
2119                                         &io->msg.iov);
2120 #else
2121         return 0;
2122 #endif
2123 }
2124
2125 static int io_recvmsg(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2126                       struct io_kiocb **nxt, bool force_nonblock)
2127 {
2128 #if defined(CONFIG_NET)
2129         struct io_async_msghdr *kmsg = NULL;
2130         struct socket *sock;
2131         int ret;
2132
2133         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
2134                 return -EINVAL;
2135
2136         sock = sock_from_file(req->file, &ret);
2137         if (sock) {
2138                 struct user_msghdr __user *msg;
2139                 struct io_async_ctx io, *copy;
2140                 struct sockaddr_storage addr;
2141                 unsigned flags;
2142
2143                 flags = READ_ONCE(sqe->msg_flags);
2144                 if (flags & MSG_DONTWAIT)
2145                         req->flags |= REQ_F_NOWAIT;
2146                 else if (force_nonblock)
2147                         flags |= MSG_DONTWAIT;
2148
2149                 msg = (struct user_msghdr __user *) (unsigned long)
2150                         READ_ONCE(sqe->addr);
2151                 if (req->io) {
2152                         kmsg = &req->io->msg;
2153                         kmsg->msg.msg_name = &addr;
2154                         /* if iov is set, it's allocated already */
2155                         if (!kmsg->iov)
2156                                 kmsg->iov = kmsg->fast_iov;
2157                         kmsg->msg.msg_iter.iov = kmsg->iov;
2158                 } else {
2159                         kmsg = &io.msg;
2160                         kmsg->msg.msg_name = &addr;
2161                         ret = io_recvmsg_prep(req, &io);
2162                         if (ret)
2163                                 goto out;
2164                 }
2165
2166                 ret = __sys_recvmsg_sock(sock, &kmsg->msg, msg, kmsg->uaddr, flags);
2167                 if (force_nonblock && ret == -EAGAIN) {
2168                         copy = kmalloc(sizeof(*copy), GFP_KERNEL);
2169                         if (!copy) {
2170                                 ret = -ENOMEM;
2171                                 goto out;
2172                         }
2173                         memcpy(copy, &io, sizeof(*copy));
2174                         req->io = copy;
2175                         memcpy(&req->io->sqe, req->sqe, sizeof(*req->sqe));
2176                         req->sqe = &req->io->sqe;
2177                         return -EAGAIN;
2178                 }
2179                 if (ret == -ERESTARTSYS)
2180                         ret = -EINTR;
2181         }
2182
2183 out:
2184         if (kmsg && kmsg->iov != kmsg->fast_iov)
2185                 kfree(kmsg->iov);
2186         io_cqring_add_event(req, ret);
2187         if (ret < 0)
2188                 req_set_fail_links(req);
2189         io_put_req_find_next(req, nxt);
2190         return 0;
2191 #else
2192         return -EOPNOTSUPP;
2193 #endif
2194 }
2195
2196 static int io_accept(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2197                      struct io_kiocb **nxt, bool force_nonblock)
2198 {
2199 #if defined(CONFIG_NET)
2200         struct sockaddr __user *addr;
2201         int __user *addr_len;
2202         unsigned file_flags;
2203         int flags, ret;
2204
2205         if (unlikely(req->ctx->flags & (IORING_SETUP_IOPOLL|IORING_SETUP_SQPOLL)))
2206                 return -EINVAL;
2207         if (sqe->ioprio || sqe->len || sqe->buf_index)
2208                 return -EINVAL;
2209
2210         addr = (struct sockaddr __user *) (unsigned long) READ_ONCE(sqe->addr);
2211         addr_len = (int __user *) (unsigned long) READ_ONCE(sqe->addr2);
2212         flags = READ_ONCE(sqe->accept_flags);
2213         file_flags = force_nonblock ? O_NONBLOCK : 0;
2214
2215         ret = __sys_accept4_file(req->file, file_flags, addr, addr_len, flags);
2216         if (ret == -EAGAIN && force_nonblock) {
2217                 req->work.flags |= IO_WQ_WORK_NEEDS_FILES;
2218                 return -EAGAIN;
2219         }
2220         if (ret == -ERESTARTSYS)
2221                 ret = -EINTR;
2222         if (ret < 0)
2223                 req_set_fail_links(req);
2224         io_cqring_add_event(req, ret);
2225         io_put_req_find_next(req, nxt);
2226         return 0;
2227 #else
2228         return -EOPNOTSUPP;
2229 #endif
2230 }
2231
2232 static int io_connect_prep(struct io_kiocb *req, struct io_async_ctx *io)
2233 {
2234 #if defined(CONFIG_NET)
2235         const struct io_uring_sqe *sqe = req->sqe;
2236         struct sockaddr __user *addr;
2237         int addr_len;
2238
2239         addr = (struct sockaddr __user *) (unsigned long) READ_ONCE(sqe->addr);
2240         addr_len = READ_ONCE(sqe->addr2);
2241         return move_addr_to_kernel(addr, addr_len, &io->connect.address);
2242 #else
2243         return 0;
2244 #endif
2245 }
2246
2247 static int io_connect(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2248                       struct io_kiocb **nxt, bool force_nonblock)
2249 {
2250 #if defined(CONFIG_NET)
2251         struct io_async_ctx __io, *io;
2252         unsigned file_flags;
2253         int addr_len, ret;
2254
2255         if (unlikely(req->ctx->flags & (IORING_SETUP_IOPOLL|IORING_SETUP_SQPOLL)))
2256                 return -EINVAL;
2257         if (sqe->ioprio || sqe->len || sqe->buf_index || sqe->rw_flags)
2258                 return -EINVAL;
2259
2260         addr_len = READ_ONCE(sqe->addr2);
2261         file_flags = force_nonblock ? O_NONBLOCK : 0;
2262
2263         if (req->io) {
2264                 io = req->io;
2265         } else {
2266                 ret = io_connect_prep(req, &__io);
2267                 if (ret)
2268                         goto out;
2269                 io = &__io;
2270         }
2271
2272         ret = __sys_connect_file(req->file, &io->connect.address, addr_len,
2273                                         file_flags);
2274         if ((ret == -EAGAIN || ret == -EINPROGRESS) && force_nonblock) {
2275                 io = kmalloc(sizeof(*io), GFP_KERNEL);
2276                 if (!io) {
2277                         ret = -ENOMEM;
2278                         goto out;
2279                 }
2280                 memcpy(&io->connect, &__io.connect, sizeof(io->connect));
2281                 req->io = io;
2282                 memcpy(&io->sqe, req->sqe, sizeof(*req->sqe));
2283                 req->sqe = &io->sqe;
2284                 return -EAGAIN;
2285         }
2286         if (ret == -ERESTARTSYS)
2287                 ret = -EINTR;
2288 out:
2289         if (ret < 0)
2290                 req_set_fail_links(req);
2291         io_cqring_add_event(req, ret);
2292         io_put_req_find_next(req, nxt);
2293         return 0;
2294 #else
2295         return -EOPNOTSUPP;
2296 #endif
2297 }
2298
2299 static void io_poll_remove_one(struct io_kiocb *req)
2300 {
2301         struct io_poll_iocb *poll = &req->poll;
2302
2303         spin_lock(&poll->head->lock);
2304         WRITE_ONCE(poll->canceled, true);
2305         if (!list_empty(&poll->wait.entry)) {
2306                 list_del_init(&poll->wait.entry);
2307                 io_queue_async_work(req);
2308         }
2309         spin_unlock(&poll->head->lock);
2310         hash_del(&req->hash_node);
2311 }
2312
2313 static void io_poll_remove_all(struct io_ring_ctx *ctx)
2314 {
2315         struct hlist_node *tmp;
2316         struct io_kiocb *req;
2317         int i;
2318
2319         spin_lock_irq(&ctx->completion_lock);
2320         for (i = 0; i < (1U << ctx->cancel_hash_bits); i++) {
2321                 struct hlist_head *list;
2322
2323                 list = &ctx->cancel_hash[i];
2324                 hlist_for_each_entry_safe(req, tmp, list, hash_node)
2325                         io_poll_remove_one(req);
2326         }
2327         spin_unlock_irq(&ctx->completion_lock);
2328 }
2329
2330 static int io_poll_cancel(struct io_ring_ctx *ctx, __u64 sqe_addr)
2331 {
2332         struct hlist_head *list;
2333         struct io_kiocb *req;
2334
2335         list = &ctx->cancel_hash[hash_long(sqe_addr, ctx->cancel_hash_bits)];
2336         hlist_for_each_entry(req, list, hash_node) {
2337                 if (sqe_addr == req->user_data) {
2338                         io_poll_remove_one(req);
2339                         return 0;
2340                 }
2341         }
2342
2343         return -ENOENT;
2344 }
2345
2346 /*
2347  * Find a running poll command that matches one specified in sqe->addr,
2348  * and remove it if found.
2349  */
2350 static int io_poll_remove(struct io_kiocb *req, const struct io_uring_sqe *sqe)
2351 {
2352         struct io_ring_ctx *ctx = req->ctx;
2353         int ret;
2354
2355         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
2356                 return -EINVAL;
2357         if (sqe->ioprio || sqe->off || sqe->len || sqe->buf_index ||
2358             sqe->poll_events)
2359                 return -EINVAL;
2360
2361         spin_lock_irq(&ctx->completion_lock);
2362         ret = io_poll_cancel(ctx, READ_ONCE(sqe->addr));
2363         spin_unlock_irq(&ctx->completion_lock);
2364
2365         io_cqring_add_event(req, ret);
2366         if (ret < 0)
2367                 req_set_fail_links(req);
2368         io_put_req(req);
2369         return 0;
2370 }
2371
2372 static void io_poll_complete(struct io_kiocb *req, __poll_t mask, int error)
2373 {
2374         struct io_ring_ctx *ctx = req->ctx;
2375
2376         req->poll.done = true;
2377         if (error)
2378                 io_cqring_fill_event(req, error);
2379         else
2380                 io_cqring_fill_event(req, mangle_poll(mask));
2381         io_commit_cqring(ctx);
2382 }
2383
2384 static void io_poll_complete_work(struct io_wq_work **workptr)
2385 {
2386         struct io_wq_work *work = *workptr;
2387         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
2388         struct io_poll_iocb *poll = &req->poll;
2389         struct poll_table_struct pt = { ._key = poll->events };
2390         struct io_ring_ctx *ctx = req->ctx;
2391         struct io_kiocb *nxt = NULL;
2392         __poll_t mask = 0;
2393         int ret = 0;
2394
2395         if (work->flags & IO_WQ_WORK_CANCEL) {
2396                 WRITE_ONCE(poll->canceled, true);
2397                 ret = -ECANCELED;
2398         } else if (READ_ONCE(poll->canceled)) {
2399                 ret = -ECANCELED;
2400         }
2401
2402         if (ret != -ECANCELED)
2403                 mask = vfs_poll(poll->file, &pt) & poll->events;
2404
2405         /*
2406          * Note that ->ki_cancel callers also delete iocb from active_reqs after
2407          * calling ->ki_cancel.  We need the ctx_lock roundtrip here to
2408          * synchronize with them.  In the cancellation case the list_del_init
2409          * itself is not actually needed, but harmless so we keep it in to
2410          * avoid further branches in the fast path.
2411          */
2412         spin_lock_irq(&ctx->completion_lock);
2413         if (!mask && ret != -ECANCELED) {
2414                 add_wait_queue(poll->head, &poll->wait);
2415                 spin_unlock_irq(&ctx->completion_lock);
2416                 return;
2417         }
2418         hash_del(&req->hash_node);
2419         io_poll_complete(req, mask, ret);
2420         spin_unlock_irq(&ctx->completion_lock);
2421
2422         io_cqring_ev_posted(ctx);
2423
2424         if (ret < 0)
2425                 req_set_fail_links(req);
2426         io_put_req_find_next(req, &nxt);
2427         if (nxt)
2428                 *workptr = &nxt->work;
2429 }
2430
2431 static int io_poll_wake(struct wait_queue_entry *wait, unsigned mode, int sync,
2432                         void *key)
2433 {
2434         struct io_poll_iocb *poll = wait->private;
2435         struct io_kiocb *req = container_of(poll, struct io_kiocb, poll);
2436         struct io_ring_ctx *ctx = req->ctx;
2437         __poll_t mask = key_to_poll(key);
2438         unsigned long flags;
2439
2440         /* for instances that support it check for an event match first: */
2441         if (mask && !(mask & poll->events))
2442                 return 0;
2443
2444         list_del_init(&poll->wait.entry);
2445
2446         /*
2447          * Run completion inline if we can. We're using trylock here because
2448          * we are violating the completion_lock -> poll wq lock ordering.
2449          * If we have a link timeout we're going to need the completion_lock
2450          * for finalizing the request, mark us as having grabbed that already.
2451          */
2452         if (mask && spin_trylock_irqsave(&ctx->completion_lock, flags)) {
2453                 hash_del(&req->hash_node);
2454                 io_poll_complete(req, mask, 0);
2455                 req->flags |= REQ_F_COMP_LOCKED;
2456                 io_put_req(req);
2457                 spin_unlock_irqrestore(&ctx->completion_lock, flags);
2458
2459                 io_cqring_ev_posted(ctx);
2460         } else {
2461                 io_queue_async_work(req);
2462         }
2463
2464         return 1;
2465 }
2466
2467 struct io_poll_table {
2468         struct poll_table_struct pt;
2469         struct io_kiocb *req;
2470         int error;
2471 };
2472
2473 static void io_poll_queue_proc(struct file *file, struct wait_queue_head *head,
2474                                struct poll_table_struct *p)
2475 {
2476         struct io_poll_table *pt = container_of(p, struct io_poll_table, pt);
2477
2478         if (unlikely(pt->req->poll.head)) {
2479                 pt->error = -EINVAL;
2480                 return;
2481         }
2482
2483         pt->error = 0;
2484         pt->req->poll.head = head;
2485         add_wait_queue(head, &pt->req->poll.wait);
2486 }
2487
2488 static void io_poll_req_insert(struct io_kiocb *req)
2489 {
2490         struct io_ring_ctx *ctx = req->ctx;
2491         struct hlist_head *list;
2492
2493         list = &ctx->cancel_hash[hash_long(req->user_data, ctx->cancel_hash_bits)];
2494         hlist_add_head(&req->hash_node, list);
2495 }
2496
2497 static int io_poll_add(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2498                        struct io_kiocb **nxt)
2499 {
2500         struct io_poll_iocb *poll = &req->poll;
2501         struct io_ring_ctx *ctx = req->ctx;
2502         struct io_poll_table ipt;
2503         bool cancel = false;
2504         __poll_t mask;
2505         u16 events;
2506
2507         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
2508                 return -EINVAL;
2509         if (sqe->addr || sqe->ioprio || sqe->off || sqe->len || sqe->buf_index)
2510                 return -EINVAL;
2511         if (!poll->file)
2512                 return -EBADF;
2513
2514         req->io = NULL;
2515         INIT_IO_WORK(&req->work, io_poll_complete_work);
2516         events = READ_ONCE(sqe->poll_events);
2517         poll->events = demangle_poll(events) | EPOLLERR | EPOLLHUP;
2518         INIT_HLIST_NODE(&req->hash_node);
2519
2520         poll->head = NULL;
2521         poll->done = false;
2522         poll->canceled = false;
2523
2524         ipt.pt._qproc = io_poll_queue_proc;
2525         ipt.pt._key = poll->events;
2526         ipt.req = req;
2527         ipt.error = -EINVAL; /* same as no support for IOCB_CMD_POLL */
2528
2529         /* initialized the list so that we can do list_empty checks */
2530         INIT_LIST_HEAD(&poll->wait.entry);
2531         init_waitqueue_func_entry(&poll->wait, io_poll_wake);
2532         poll->wait.private = poll;
2533
2534         INIT_LIST_HEAD(&req->list);
2535
2536         mask = vfs_poll(poll->file, &ipt.pt) & poll->events;
2537
2538         spin_lock_irq(&ctx->completion_lock);
2539         if (likely(poll->head)) {
2540                 spin_lock(&poll->head->lock);
2541                 if (unlikely(list_empty(&poll->wait.entry))) {
2542                         if (ipt.error)
2543                                 cancel = true;
2544                         ipt.error = 0;
2545                         mask = 0;
2546                 }
2547                 if (mask || ipt.error)
2548                         list_del_init(&poll->wait.entry);
2549                 else if (cancel)
2550                         WRITE_ONCE(poll->canceled, true);
2551                 else if (!poll->done) /* actually waiting for an event */
2552                         io_poll_req_insert(req);
2553                 spin_unlock(&poll->head->lock);
2554         }
2555         if (mask) { /* no async, we'd stolen it */
2556                 ipt.error = 0;
2557                 io_poll_complete(req, mask, 0);
2558         }
2559         spin_unlock_irq(&ctx->completion_lock);
2560
2561         if (mask) {
2562                 io_cqring_ev_posted(ctx);
2563                 io_put_req_find_next(req, nxt);
2564         }
2565         return ipt.error;
2566 }
2567
2568 static enum hrtimer_restart io_timeout_fn(struct hrtimer *timer)
2569 {
2570         struct io_timeout_data *data = container_of(timer,
2571                                                 struct io_timeout_data, timer);
2572         struct io_kiocb *req = data->req;
2573         struct io_ring_ctx *ctx = req->ctx;
2574         unsigned long flags;
2575
2576         atomic_inc(&ctx->cq_timeouts);
2577
2578         spin_lock_irqsave(&ctx->completion_lock, flags);
2579         /*
2580          * We could be racing with timeout deletion. If the list is empty,
2581          * then timeout lookup already found it and will be handling it.
2582          */
2583         if (!list_empty(&req->list)) {
2584                 struct io_kiocb *prev;
2585
2586                 /*
2587                  * Adjust the reqs sequence before the current one because it
2588                  * will consume a slot in the cq_ring and the cq_tail
2589                  * pointer will be increased, otherwise other timeout reqs may
2590                  * return in advance without waiting for enough wait_nr.
2591                  */
2592                 prev = req;
2593                 list_for_each_entry_continue_reverse(prev, &ctx->timeout_list, list)
2594                         prev->sequence++;
2595                 list_del_init(&req->list);
2596         }
2597
2598         io_cqring_fill_event(req, -ETIME);
2599         io_commit_cqring(ctx);
2600         spin_unlock_irqrestore(&ctx->completion_lock, flags);
2601
2602         io_cqring_ev_posted(ctx);
2603         req_set_fail_links(req);
2604         io_put_req(req);
2605         return HRTIMER_NORESTART;
2606 }
2607
2608 static int io_timeout_cancel(struct io_ring_ctx *ctx, __u64 user_data)
2609 {
2610         struct io_kiocb *req;
2611         int ret = -ENOENT;
2612
2613         list_for_each_entry(req, &ctx->timeout_list, list) {
2614                 if (user_data == req->user_data) {
2615                         list_del_init(&req->list);
2616                         ret = 0;
2617                         break;
2618                 }
2619         }
2620
2621         if (ret == -ENOENT)
2622                 return ret;
2623
2624         ret = hrtimer_try_to_cancel(&req->io->timeout.timer);
2625         if (ret == -1)
2626                 return -EALREADY;
2627
2628         req_set_fail_links(req);
2629         io_cqring_fill_event(req, -ECANCELED);
2630         io_put_req(req);
2631         return 0;
2632 }
2633
2634 /*
2635  * Remove or update an existing timeout command
2636  */
2637 static int io_timeout_remove(struct io_kiocb *req,
2638                              const struct io_uring_sqe *sqe)
2639 {
2640         struct io_ring_ctx *ctx = req->ctx;
2641         unsigned flags;
2642         int ret;
2643
2644         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
2645                 return -EINVAL;
2646         if (sqe->flags || sqe->ioprio || sqe->buf_index || sqe->len)
2647                 return -EINVAL;
2648         flags = READ_ONCE(sqe->timeout_flags);
2649         if (flags)
2650                 return -EINVAL;
2651
2652         spin_lock_irq(&ctx->completion_lock);
2653         ret = io_timeout_cancel(ctx, READ_ONCE(sqe->addr));
2654
2655         io_cqring_fill_event(req, ret);
2656         io_commit_cqring(ctx);
2657         spin_unlock_irq(&ctx->completion_lock);
2658         io_cqring_ev_posted(ctx);
2659         if (ret < 0)
2660                 req_set_fail_links(req);
2661         io_put_req(req);
2662         return 0;
2663 }
2664
2665 static int io_timeout_prep(struct io_kiocb *req, struct io_async_ctx *io,
2666                            bool is_timeout_link)
2667 {
2668         const struct io_uring_sqe *sqe = req->sqe;
2669         struct io_timeout_data *data;
2670         unsigned flags;
2671
2672         if (unlikely(req->ctx->flags & IORING_SETUP_IOPOLL))
2673                 return -EINVAL;
2674         if (sqe->ioprio || sqe->buf_index || sqe->len != 1)
2675                 return -EINVAL;
2676         if (sqe->off && is_timeout_link)
2677                 return -EINVAL;
2678         flags = READ_ONCE(sqe->timeout_flags);
2679         if (flags & ~IORING_TIMEOUT_ABS)
2680                 return -EINVAL;
2681
2682         data = &io->timeout;
2683         data->req = req;
2684         req->flags |= REQ_F_TIMEOUT;
2685
2686         if (get_timespec64(&data->ts, u64_to_user_ptr(sqe->addr)))
2687                 return -EFAULT;
2688
2689         if (flags & IORING_TIMEOUT_ABS)
2690                 data->mode = HRTIMER_MODE_ABS;
2691         else
2692                 data->mode = HRTIMER_MODE_REL;
2693
2694         hrtimer_init(&data->timer, CLOCK_MONOTONIC, data->mode);
2695         req->io = io;
2696         return 0;
2697 }
2698
2699 static int io_timeout(struct io_kiocb *req, const struct io_uring_sqe *sqe)
2700 {
2701         unsigned count;
2702         struct io_ring_ctx *ctx = req->ctx;
2703         struct io_timeout_data *data;
2704         struct io_async_ctx *io;
2705         struct list_head *entry;
2706         unsigned span = 0;
2707
2708         io = req->io;
2709         if (!io) {
2710                 int ret;
2711
2712                 io = kmalloc(sizeof(*io), GFP_KERNEL);
2713                 if (!io)
2714                         return -ENOMEM;
2715                 ret = io_timeout_prep(req, io, false);
2716                 if (ret) {
2717                         kfree(io);
2718                         return ret;
2719                 }
2720         }
2721         data = &req->io->timeout;
2722
2723         /*
2724          * sqe->off holds how many events that need to occur for this
2725          * timeout event to be satisfied. If it isn't set, then this is
2726          * a pure timeout request, sequence isn't used.
2727          */
2728         count = READ_ONCE(sqe->off);
2729         if (!count) {
2730                 req->flags |= REQ_F_TIMEOUT_NOSEQ;
2731                 spin_lock_irq(&ctx->completion_lock);
2732                 entry = ctx->timeout_list.prev;
2733                 goto add;
2734         }
2735
2736         req->sequence = ctx->cached_sq_head + count - 1;
2737         data->seq_offset = count;
2738
2739         /*
2740          * Insertion sort, ensuring the first entry in the list is always
2741          * the one we need first.
2742          */
2743         spin_lock_irq(&ctx->completion_lock);
2744         list_for_each_prev(entry, &ctx->timeout_list) {
2745                 struct io_kiocb *nxt = list_entry(entry, struct io_kiocb, list);
2746                 unsigned nxt_sq_head;
2747                 long long tmp, tmp_nxt;
2748                 u32 nxt_offset = nxt->io->timeout.seq_offset;
2749
2750                 if (nxt->flags & REQ_F_TIMEOUT_NOSEQ)
2751                         continue;
2752
2753                 /*
2754                  * Since cached_sq_head + count - 1 can overflow, use type long
2755                  * long to store it.
2756                  */
2757                 tmp = (long long)ctx->cached_sq_head + count - 1;
2758                 nxt_sq_head = nxt->sequence - nxt_offset + 1;
2759                 tmp_nxt = (long long)nxt_sq_head + nxt_offset - 1;
2760
2761                 /*
2762                  * cached_sq_head may overflow, and it will never overflow twice
2763                  * once there is some timeout req still be valid.
2764                  */
2765                 if (ctx->cached_sq_head < nxt_sq_head)
2766                         tmp += UINT_MAX;
2767
2768                 if (tmp > tmp_nxt)
2769                         break;
2770
2771                 /*
2772                  * Sequence of reqs after the insert one and itself should
2773                  * be adjusted because each timeout req consumes a slot.
2774                  */
2775                 span++;
2776                 nxt->sequence++;
2777         }
2778         req->sequence -= span;
2779 add:
2780         list_add(&req->list, entry);
2781         data->timer.function = io_timeout_fn;
2782         hrtimer_start(&data->timer, timespec64_to_ktime(data->ts), data->mode);
2783         spin_unlock_irq(&ctx->completion_lock);
2784         return 0;
2785 }
2786
2787 static bool io_cancel_cb(struct io_wq_work *work, void *data)
2788 {
2789         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
2790
2791         return req->user_data == (unsigned long) data;
2792 }
2793
2794 static int io_async_cancel_one(struct io_ring_ctx *ctx, void *sqe_addr)
2795 {
2796         enum io_wq_cancel cancel_ret;
2797         int ret = 0;
2798
2799         cancel_ret = io_wq_cancel_cb(ctx->io_wq, io_cancel_cb, sqe_addr);
2800         switch (cancel_ret) {
2801         case IO_WQ_CANCEL_OK:
2802                 ret = 0;
2803                 break;
2804         case IO_WQ_CANCEL_RUNNING:
2805                 ret = -EALREADY;
2806                 break;
2807         case IO_WQ_CANCEL_NOTFOUND:
2808                 ret = -ENOENT;
2809                 break;
2810         }
2811
2812         return ret;
2813 }
2814
2815 static void io_async_find_and_cancel(struct io_ring_ctx *ctx,
2816                                      struct io_kiocb *req, __u64 sqe_addr,
2817                                      struct io_kiocb **nxt, int success_ret)
2818 {
2819         unsigned long flags;
2820         int ret;
2821
2822         ret = io_async_cancel_one(ctx, (void *) (unsigned long) sqe_addr);
2823         if (ret != -ENOENT) {
2824                 spin_lock_irqsave(&ctx->completion_lock, flags);
2825                 goto done;
2826         }
2827
2828         spin_lock_irqsave(&ctx->completion_lock, flags);
2829         ret = io_timeout_cancel(ctx, sqe_addr);
2830         if (ret != -ENOENT)
2831                 goto done;
2832         ret = io_poll_cancel(ctx, sqe_addr);
2833 done:
2834         if (!ret)
2835                 ret = success_ret;
2836         io_cqring_fill_event(req, ret);
2837         io_commit_cqring(ctx);
2838         spin_unlock_irqrestore(&ctx->completion_lock, flags);
2839         io_cqring_ev_posted(ctx);
2840
2841         if (ret < 0)
2842                 req_set_fail_links(req);
2843         io_put_req_find_next(req, nxt);
2844 }
2845
2846 static int io_async_cancel(struct io_kiocb *req, const struct io_uring_sqe *sqe,
2847                            struct io_kiocb **nxt)
2848 {
2849         struct io_ring_ctx *ctx = req->ctx;
2850
2851         if (unlikely(ctx->flags & IORING_SETUP_IOPOLL))
2852                 return -EINVAL;
2853         if (sqe->flags || sqe->ioprio || sqe->off || sqe->len ||
2854             sqe->cancel_flags)
2855                 return -EINVAL;
2856
2857         io_async_find_and_cancel(ctx, req, READ_ONCE(sqe->addr), nxt, 0);
2858         return 0;
2859 }
2860
2861 static int io_req_defer_prep(struct io_kiocb *req, struct io_async_ctx *io)
2862 {
2863         struct iovec inline_vecs[UIO_FASTIOV], *iovec = inline_vecs;
2864         struct iov_iter iter;
2865         ssize_t ret;
2866
2867         memcpy(&io->sqe, req->sqe, sizeof(io->sqe));
2868         req->sqe = &io->sqe;
2869
2870         switch (io->sqe.opcode) {
2871         case IORING_OP_READV:
2872         case IORING_OP_READ_FIXED:
2873                 ret = io_read_prep(req, &iovec, &iter, true);
2874                 break;
2875         case IORING_OP_WRITEV:
2876         case IORING_OP_WRITE_FIXED:
2877                 ret = io_write_prep(req, &iovec, &iter, true);
2878                 break;
2879         case IORING_OP_SENDMSG:
2880                 ret = io_sendmsg_prep(req, io);
2881                 break;
2882         case IORING_OP_RECVMSG:
2883                 ret = io_recvmsg_prep(req, io);
2884                 break;
2885         case IORING_OP_CONNECT:
2886                 ret = io_connect_prep(req, io);
2887                 break;
2888         case IORING_OP_TIMEOUT:
2889                 return io_timeout_prep(req, io, false);
2890         case IORING_OP_LINK_TIMEOUT:
2891                 return io_timeout_prep(req, io, true);
2892         default:
2893                 req->io = io;
2894                 return 0;
2895         }
2896
2897         if (ret < 0)
2898                 return ret;
2899
2900         req->io = io;
2901         io_req_map_io(req, ret, iovec, inline_vecs, &iter);
2902         return 0;
2903 }
2904
2905 static int io_req_defer(struct io_kiocb *req)
2906 {
2907         struct io_ring_ctx *ctx = req->ctx;
2908         struct io_async_ctx *io;
2909         int ret;
2910
2911         /* Still need defer if there is pending req in defer list. */
2912         if (!req_need_defer(req) && list_empty(&ctx->defer_list))
2913                 return 0;
2914
2915         io = kmalloc(sizeof(*io), GFP_KERNEL);
2916         if (!io)
2917                 return -EAGAIN;
2918
2919         ret = io_req_defer_prep(req, io);
2920         if (ret < 0) {
2921                 kfree(io);
2922                 return ret;
2923         }
2924
2925         spin_lock_irq(&ctx->completion_lock);
2926         if (!req_need_defer(req) && list_empty(&ctx->defer_list)) {
2927                 spin_unlock_irq(&ctx->completion_lock);
2928                 return 0;
2929         }
2930
2931         trace_io_uring_defer(ctx, req, req->user_data);
2932         list_add_tail(&req->list, &ctx->defer_list);
2933         spin_unlock_irq(&ctx->completion_lock);
2934         return -EIOCBQUEUED;
2935 }
2936
2937 __attribute__((nonnull))
2938 static int io_issue_sqe(struct io_kiocb *req, struct io_kiocb **nxt,
2939                         bool force_nonblock)
2940 {
2941         int ret, opcode;
2942         struct io_ring_ctx *ctx = req->ctx;
2943
2944         opcode = READ_ONCE(req->sqe->opcode);
2945         switch (opcode) {
2946         case IORING_OP_NOP:
2947                 ret = io_nop(req);
2948                 break;
2949         case IORING_OP_READV:
2950                 if (unlikely(req->sqe->buf_index))
2951                         return -EINVAL;
2952                 ret = io_read(req, nxt, force_nonblock);
2953                 break;
2954         case IORING_OP_WRITEV:
2955                 if (unlikely(req->sqe->buf_index))
2956                         return -EINVAL;
2957                 ret = io_write(req, nxt, force_nonblock);
2958                 break;
2959         case IORING_OP_READ_FIXED:
2960                 ret = io_read(req, nxt, force_nonblock);
2961                 break;
2962         case IORING_OP_WRITE_FIXED:
2963                 ret = io_write(req, nxt, force_nonblock);
2964                 break;
2965         case IORING_OP_FSYNC:
2966                 ret = io_fsync(req, req->sqe, nxt, force_nonblock);
2967                 break;
2968         case IORING_OP_POLL_ADD:
2969                 ret = io_poll_add(req, req->sqe, nxt);
2970                 break;
2971         case IORING_OP_POLL_REMOVE:
2972                 ret = io_poll_remove(req, req->sqe);
2973                 break;
2974         case IORING_OP_SYNC_FILE_RANGE:
2975                 ret = io_sync_file_range(req, req->sqe, nxt, force_nonblock);
2976                 break;
2977         case IORING_OP_SENDMSG:
2978                 ret = io_sendmsg(req, req->sqe, nxt, force_nonblock);
2979                 break;
2980         case IORING_OP_RECVMSG:
2981                 ret = io_recvmsg(req, req->sqe, nxt, force_nonblock);
2982                 break;
2983         case IORING_OP_TIMEOUT:
2984                 ret = io_timeout(req, req->sqe);
2985                 break;
2986         case IORING_OP_TIMEOUT_REMOVE:
2987                 ret = io_timeout_remove(req, req->sqe);
2988                 break;
2989         case IORING_OP_ACCEPT:
2990                 ret = io_accept(req, req->sqe, nxt, force_nonblock);
2991                 break;
2992         case IORING_OP_CONNECT:
2993                 ret = io_connect(req, req->sqe, nxt, force_nonblock);
2994                 break;
2995         case IORING_OP_ASYNC_CANCEL:
2996                 ret = io_async_cancel(req, req->sqe, nxt);
2997                 break;
2998         default:
2999                 ret = -EINVAL;
3000                 break;
3001         }
3002
3003         if (ret)
3004                 return ret;
3005
3006         if (ctx->flags & IORING_SETUP_IOPOLL) {
3007                 if (req->result == -EAGAIN)
3008                         return -EAGAIN;
3009
3010                 io_iopoll_req_issued(req);
3011         }
3012
3013         return 0;
3014 }
3015
3016 static void io_link_work_cb(struct io_wq_work **workptr)
3017 {
3018         struct io_wq_work *work = *workptr;
3019         struct io_kiocb *link = work->data;
3020
3021         io_queue_linked_timeout(link);
3022         work->func = io_wq_submit_work;
3023 }
3024
3025 static void io_wq_submit_work(struct io_wq_work **workptr)
3026 {
3027         struct io_wq_work *work = *workptr;
3028         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
3029         struct io_kiocb *nxt = NULL;
3030         int ret = 0;
3031
3032         /* Ensure we clear previously set non-block flag */
3033         req->rw.ki_flags &= ~IOCB_NOWAIT;
3034
3035         if (work->flags & IO_WQ_WORK_CANCEL)
3036                 ret = -ECANCELED;
3037
3038         if (!ret) {
3039                 req->has_user = (work->flags & IO_WQ_WORK_HAS_MM) != 0;
3040                 req->in_async = true;
3041                 do {
3042                         ret = io_issue_sqe(req, &nxt, false);
3043                         /*
3044                          * We can get EAGAIN for polled IO even though we're
3045                          * forcing a sync submission from here, since we can't
3046                          * wait for request slots on the block side.
3047                          */
3048                         if (ret != -EAGAIN)
3049                                 break;
3050                         cond_resched();
3051                 } while (1);
3052         }
3053
3054         /* drop submission reference */
3055         io_put_req(req);
3056
3057         if (ret) {
3058                 req_set_fail_links(req);
3059                 io_cqring_add_event(req, ret);
3060                 io_put_req(req);
3061         }
3062
3063         /* if a dependent link is ready, pass it back */
3064         if (!ret && nxt) {
3065                 struct io_kiocb *link;
3066
3067                 io_prep_async_work(nxt, &link);
3068                 *workptr = &nxt->work;
3069                 if (link) {
3070                         nxt->work.flags |= IO_WQ_WORK_CB;
3071                         nxt->work.func = io_link_work_cb;
3072                         nxt->work.data = link;
3073                 }
3074         }
3075 }
3076
3077 static bool io_req_op_valid(int op)
3078 {
3079         return op >= IORING_OP_NOP && op < IORING_OP_LAST;
3080 }
3081
3082 static int io_op_needs_file(const struct io_uring_sqe *sqe)
3083 {
3084         int op = READ_ONCE(sqe->opcode);
3085
3086         switch (op) {
3087         case IORING_OP_NOP:
3088         case IORING_OP_POLL_REMOVE:
3089         case IORING_OP_TIMEOUT:
3090         case IORING_OP_TIMEOUT_REMOVE:
3091         case IORING_OP_ASYNC_CANCEL:
3092         case IORING_OP_LINK_TIMEOUT:
3093                 return 0;
3094         default:
3095                 if (io_req_op_valid(op))
3096                         return 1;
3097                 return -EINVAL;
3098         }
3099 }
3100
3101 static inline struct file *io_file_from_index(struct io_ring_ctx *ctx,
3102                                               int index)
3103 {
3104         struct fixed_file_table *table;
3105
3106         table = &ctx->file_table[index >> IORING_FILE_TABLE_SHIFT];
3107         return table->files[index & IORING_FILE_TABLE_MASK];
3108 }
3109
3110 static int io_req_set_file(struct io_submit_state *state, struct io_kiocb *req)
3111 {
3112         struct io_ring_ctx *ctx = req->ctx;
3113         unsigned flags;
3114         int fd, ret;
3115
3116         flags = READ_ONCE(req->sqe->flags);
3117         fd = READ_ONCE(req->sqe->fd);
3118
3119         if (flags & IOSQE_IO_DRAIN)
3120                 req->flags |= REQ_F_IO_DRAIN;
3121
3122         ret = io_op_needs_file(req->sqe);
3123         if (ret <= 0)
3124                 return ret;
3125
3126         if (flags & IOSQE_FIXED_FILE) {
3127                 if (unlikely(!ctx->file_table ||
3128                     (unsigned) fd >= ctx->nr_user_files))
3129                         return -EBADF;
3130                 fd = array_index_nospec(fd, ctx->nr_user_files);
3131                 req->file = io_file_from_index(ctx, fd);
3132                 if (!req->file)
3133                         return -EBADF;
3134                 req->flags |= REQ_F_FIXED_FILE;
3135         } else {
3136                 if (req->needs_fixed_file)
3137                         return -EBADF;
3138                 trace_io_uring_file_get(ctx, fd);
3139                 req->file = io_file_get(state, fd);
3140                 if (unlikely(!req->file))
3141                         return -EBADF;
3142         }
3143
3144         return 0;
3145 }
3146
3147 static int io_grab_files(struct io_kiocb *req)
3148 {
3149         int ret = -EBADF;
3150         struct io_ring_ctx *ctx = req->ctx;
3151
3152         rcu_read_lock();
3153         spin_lock_irq(&ctx->inflight_lock);
3154         /*
3155          * We use the f_ops->flush() handler to ensure that we can flush
3156          * out work accessing these files if the fd is closed. Check if
3157          * the fd has changed since we started down this path, and disallow
3158          * this operation if it has.
3159          */
3160         if (fcheck(req->ring_fd) == req->ring_file) {
3161                 list_add(&req->inflight_entry, &ctx->inflight_list);
3162                 req->flags |= REQ_F_INFLIGHT;
3163                 req->work.files = current->files;
3164                 ret = 0;
3165         }
3166         spin_unlock_irq(&ctx->inflight_lock);
3167         rcu_read_unlock();
3168
3169         return ret;
3170 }
3171
3172 static enum hrtimer_restart io_link_timeout_fn(struct hrtimer *timer)
3173 {
3174         struct io_timeout_data *data = container_of(timer,
3175                                                 struct io_timeout_data, timer);
3176         struct io_kiocb *req = data->req;
3177         struct io_ring_ctx *ctx = req->ctx;
3178         struct io_kiocb *prev = NULL;
3179         unsigned long flags;
3180
3181         spin_lock_irqsave(&ctx->completion_lock, flags);
3182
3183         /*
3184          * We don't expect the list to be empty, that will only happen if we
3185          * race with the completion of the linked work.
3186          */
3187         if (!list_empty(&req->link_list)) {
3188                 prev = list_entry(req->link_list.prev, struct io_kiocb,
3189                                   link_list);
3190                 if (refcount_inc_not_zero(&prev->refs)) {
3191                         list_del_init(&req->link_list);
3192                         prev->flags &= ~REQ_F_LINK_TIMEOUT;
3193                 } else
3194                         prev = NULL;
3195         }
3196
3197         spin_unlock_irqrestore(&ctx->completion_lock, flags);
3198
3199         if (prev) {
3200                 req_set_fail_links(prev);
3201                 io_async_find_and_cancel(ctx, req, prev->user_data, NULL,
3202                                                 -ETIME);
3203                 io_put_req(prev);
3204         } else {
3205                 io_cqring_add_event(req, -ETIME);
3206                 io_put_req(req);
3207         }
3208         return HRTIMER_NORESTART;
3209 }
3210
3211 static void io_queue_linked_timeout(struct io_kiocb *req)
3212 {
3213         struct io_ring_ctx *ctx = req->ctx;
3214
3215         /*
3216          * If the list is now empty, then our linked request finished before
3217          * we got a chance to setup the timer
3218          */
3219         spin_lock_irq(&ctx->completion_lock);
3220         if (!list_empty(&req->link_list)) {
3221                 struct io_timeout_data *data = &req->io->timeout;
3222
3223                 data->timer.function = io_link_timeout_fn;
3224                 hrtimer_start(&data->timer, timespec64_to_ktime(data->ts),
3225                                 data->mode);
3226         }
3227         spin_unlock_irq(&ctx->completion_lock);
3228
3229         /* drop submission reference */
3230         io_put_req(req);
3231 }
3232
3233 static struct io_kiocb *io_prep_linked_timeout(struct io_kiocb *req)
3234 {
3235         struct io_kiocb *nxt;
3236
3237         if (!(req->flags & REQ_F_LINK))
3238                 return NULL;
3239
3240         nxt = list_first_entry_or_null(&req->link_list, struct io_kiocb,
3241                                         link_list);
3242         if (!nxt || nxt->sqe->opcode != IORING_OP_LINK_TIMEOUT)
3243                 return NULL;
3244
3245         req->flags |= REQ_F_LINK_TIMEOUT;
3246         return nxt;
3247 }
3248
3249 static void __io_queue_sqe(struct io_kiocb *req)
3250 {
3251         struct io_kiocb *linked_timeout;
3252         struct io_kiocb *nxt = NULL;
3253         int ret;
3254
3255 again:
3256         linked_timeout = io_prep_linked_timeout(req);
3257
3258         ret = io_issue_sqe(req, &nxt, true);
3259
3260         /*
3261          * We async punt it if the file wasn't marked NOWAIT, or if the file
3262          * doesn't support non-blocking read/write attempts
3263          */
3264         if (ret == -EAGAIN && (!(req->flags & REQ_F_NOWAIT) ||
3265             (req->flags & REQ_F_MUST_PUNT))) {
3266                 if (req->work.flags & IO_WQ_WORK_NEEDS_FILES) {
3267                         ret = io_grab_files(req);
3268                         if (ret)
3269                                 goto err;
3270                 }
3271
3272                 /*
3273                  * Queued up for async execution, worker will release
3274                  * submit reference when the iocb is actually submitted.
3275                  */
3276                 io_queue_async_work(req);
3277                 goto done_req;
3278         }
3279
3280 err:
3281         /* drop submission reference */
3282         io_put_req(req);
3283
3284         if (linked_timeout) {
3285                 if (!ret)
3286                         io_queue_linked_timeout(linked_timeout);
3287                 else
3288                         io_put_req(linked_timeout);
3289         }
3290
3291         /* and drop final reference, if we failed */
3292         if (ret) {
3293                 io_cqring_add_event(req, ret);
3294                 req_set_fail_links(req);
3295                 io_put_req(req);
3296         }
3297 done_req:
3298         if (nxt) {
3299                 req = nxt;
3300                 nxt = NULL;
3301                 goto again;
3302         }
3303 }
3304
3305 static void io_queue_sqe(struct io_kiocb *req)
3306 {
3307         int ret;
3308
3309         if (unlikely(req->ctx->drain_next)) {
3310                 req->flags |= REQ_F_IO_DRAIN;
3311                 req->ctx->drain_next = false;
3312         }
3313         req->ctx->drain_next = (req->flags & REQ_F_DRAIN_LINK);
3314
3315         ret = io_req_defer(req);
3316         if (ret) {
3317                 if (ret != -EIOCBQUEUED) {
3318                         io_cqring_add_event(req, ret);
3319                         req_set_fail_links(req);
3320                         io_double_put_req(req);
3321                 }
3322         } else
3323                 __io_queue_sqe(req);
3324 }
3325
3326 static inline void io_queue_link_head(struct io_kiocb *req)
3327 {
3328         if (unlikely(req->flags & REQ_F_FAIL_LINK)) {
3329                 io_cqring_add_event(req, -ECANCELED);
3330                 io_double_put_req(req);
3331         } else
3332                 io_queue_sqe(req);
3333 }
3334
3335 #define SQE_VALID_FLAGS (IOSQE_FIXED_FILE|IOSQE_IO_DRAIN|IOSQE_IO_LINK| \
3336                                 IOSQE_IO_HARDLINK)
3337
3338 static bool io_submit_sqe(struct io_kiocb *req, struct io_submit_state *state,
3339                           struct io_kiocb **link)
3340 {
3341         struct io_ring_ctx *ctx = req->ctx;
3342         int ret;
3343
3344         req->user_data = req->sqe->user_data;
3345
3346         /* enforce forwards compatibility on users */
3347         if (unlikely(req->sqe->flags & ~SQE_VALID_FLAGS)) {
3348                 ret = -EINVAL;
3349                 goto err_req;
3350         }
3351
3352         ret = io_req_set_file(state, req);
3353         if (unlikely(ret)) {
3354 err_req:
3355                 io_cqring_add_event(req, ret);
3356                 io_double_put_req(req);
3357                 return false;
3358         }
3359
3360         /*
3361          * If we already have a head request, queue this one for async
3362          * submittal once the head completes. If we don't have a head but
3363          * IOSQE_IO_LINK is set in the sqe, start a new head. This one will be
3364          * submitted sync once the chain is complete. If none of those
3365          * conditions are true (normal request), then just queue it.
3366          */
3367         if (*link) {
3368                 struct io_kiocb *prev = *link;
3369                 struct io_async_ctx *io;
3370
3371                 if (req->sqe->flags & IOSQE_IO_DRAIN)
3372                         (*link)->flags |= REQ_F_DRAIN_LINK | REQ_F_IO_DRAIN;
3373
3374                 if (req->sqe->flags & IOSQE_IO_HARDLINK)
3375                         req->flags |= REQ_F_HARDLINK;
3376
3377                 io = kmalloc(sizeof(*io), GFP_KERNEL);
3378                 if (!io) {
3379                         ret = -EAGAIN;
3380                         goto err_req;
3381                 }
3382
3383                 ret = io_req_defer_prep(req, io);
3384                 if (ret) {
3385                         kfree(io);
3386                         /* fail even hard links since we don't submit */
3387                         prev->flags |= REQ_F_FAIL_LINK;
3388                         goto err_req;
3389                 }
3390                 trace_io_uring_link(ctx, req, prev);
3391                 list_add_tail(&req->link_list, &prev->link_list);
3392         } else if (req->sqe->flags & (IOSQE_IO_LINK|IOSQE_IO_HARDLINK)) {
3393                 req->flags |= REQ_F_LINK;
3394                 if (req->sqe->flags & IOSQE_IO_HARDLINK)
3395                         req->flags |= REQ_F_HARDLINK;
3396
3397                 INIT_LIST_HEAD(&req->link_list);
3398                 *link = req;
3399         } else {
3400                 io_queue_sqe(req);
3401         }
3402
3403         return true;
3404 }
3405
3406 /*
3407  * Batched submission is done, ensure local IO is flushed out.
3408  */
3409 static void io_submit_state_end(struct io_submit_state *state)
3410 {
3411         blk_finish_plug(&state->plug);
3412         io_file_put(state);
3413         if (state->free_reqs)
3414                 kmem_cache_free_bulk(req_cachep, state->free_reqs,
3415                                         &state->reqs[state->cur_req]);
3416 }
3417
3418 /*
3419  * Start submission side cache.
3420  */
3421 static void io_submit_state_start(struct io_submit_state *state,
3422                                   unsigned int max_ios)
3423 {
3424         blk_start_plug(&state->plug);
3425         state->free_reqs = 0;
3426         state->file = NULL;
3427         state->ios_left = max_ios;
3428 }
3429
3430 static void io_commit_sqring(struct io_ring_ctx *ctx)
3431 {
3432         struct io_rings *rings = ctx->rings;
3433
3434         if (ctx->cached_sq_head != READ_ONCE(rings->sq.head)) {
3435                 /*
3436                  * Ensure any loads from the SQEs are done at this point,
3437                  * since once we write the new head, the application could
3438                  * write new data to them.
3439                  */
3440                 smp_store_release(&rings->sq.head, ctx->cached_sq_head);
3441         }
3442 }
3443
3444 /*
3445  * Fetch an sqe, if one is available. Note that req->sqe will point to memory
3446  * that is mapped by userspace. This means that care needs to be taken to
3447  * ensure that reads are stable, as we cannot rely on userspace always
3448  * being a good citizen. If members of the sqe are validated and then later
3449  * used, it's important that those reads are done through READ_ONCE() to
3450  * prevent a re-load down the line.
3451  */
3452 static bool io_get_sqring(struct io_ring_ctx *ctx, struct io_kiocb *req)
3453 {
3454         struct io_rings *rings = ctx->rings;
3455         u32 *sq_array = ctx->sq_array;
3456         unsigned head;
3457
3458         /*
3459          * The cached sq head (or cq tail) serves two purposes:
3460          *
3461          * 1) allows us to batch the cost of updating the user visible
3462          *    head updates.
3463          * 2) allows the kernel side to track the head on its own, even
3464          *    though the application is the one updating it.
3465          */
3466         head = ctx->cached_sq_head;
3467         /* make sure SQ entry isn't read before tail */
3468         if (unlikely(head == smp_load_acquire(&rings->sq.tail)))
3469                 return false;
3470
3471         head = READ_ONCE(sq_array[head & ctx->sq_mask]);
3472         if (likely(head < ctx->sq_entries)) {
3473                 /*
3474                  * All io need record the previous position, if LINK vs DARIN,
3475                  * it can be used to mark the position of the first IO in the
3476                  * link list.
3477                  */
3478                 req->sequence = ctx->cached_sq_head;
3479                 req->sqe = &ctx->sq_sqes[head];
3480                 ctx->cached_sq_head++;
3481                 return true;
3482         }
3483
3484         /* drop invalid entries */
3485         ctx->cached_sq_head++;
3486         ctx->cached_sq_dropped++;
3487         WRITE_ONCE(rings->sq_dropped, ctx->cached_sq_dropped);
3488         return false;
3489 }
3490
3491 static int io_submit_sqes(struct io_ring_ctx *ctx, unsigned int nr,
3492                           struct file *ring_file, int ring_fd,
3493                           struct mm_struct **mm, bool async)
3494 {
3495         struct io_submit_state state, *statep = NULL;
3496         struct io_kiocb *link = NULL;
3497         int i, submitted = 0;
3498         bool mm_fault = false;
3499
3500         /* if we have a backlog and couldn't flush it all, return BUSY */
3501         if (!list_empty(&ctx->cq_overflow_list) &&
3502             !io_cqring_overflow_flush(ctx, false))
3503                 return -EBUSY;
3504
3505         if (nr > IO_PLUG_THRESHOLD) {
3506                 io_submit_state_start(&state, nr);
3507                 statep = &state;
3508         }
3509
3510         for (i = 0; i < nr; i++) {
3511                 struct io_kiocb *req;
3512                 unsigned int sqe_flags;
3513
3514                 req = io_get_req(ctx, statep);
3515                 if (unlikely(!req)) {
3516                         if (!submitted)
3517                                 submitted = -EAGAIN;
3518                         break;
3519                 }
3520                 if (!io_get_sqring(ctx, req)) {
3521                         __io_free_req(req);
3522                         break;
3523                 }
3524
3525                 if (io_sqe_needs_user(req->sqe) && !*mm) {
3526                         mm_fault = mm_fault || !mmget_not_zero(ctx->sqo_mm);
3527                         if (!mm_fault) {
3528                                 use_mm(ctx->sqo_mm);
3529                                 *mm = ctx->sqo_mm;
3530                         }
3531                 }
3532
3533                 submitted++;
3534                 sqe_flags = req->sqe->flags;
3535
3536                 req->ring_file = ring_file;
3537                 req->ring_fd = ring_fd;
3538                 req->has_user = *mm != NULL;
3539                 req->in_async = async;
3540                 req->needs_fixed_file = async;
3541                 trace_io_uring_submit_sqe(ctx, req->sqe->user_data,
3542                                           true, async);
3543                 if (!io_submit_sqe(req, statep, &link))
3544                         break;
3545                 /*
3546                  * If previous wasn't linked and we have a linked command,
3547                  * that's the end of the chain. Submit the previous link.
3548                  */
3549                 if (!(sqe_flags & IOSQE_IO_LINK) && link) {
3550                         io_queue_link_head(link);
3551                         link = NULL;
3552                 }
3553         }
3554
3555         if (link)
3556                 io_queue_link_head(link);
3557         if (statep)
3558                 io_submit_state_end(&state);
3559
3560          /* Commit SQ ring head once we've consumed and submitted all SQEs */
3561         io_commit_sqring(ctx);
3562
3563         return submitted;
3564 }
3565
3566 static int io_sq_thread(void *data)
3567 {
3568         struct io_ring_ctx *ctx = data;
3569         struct mm_struct *cur_mm = NULL;
3570         const struct cred *old_cred;
3571         mm_segment_t old_fs;
3572         DEFINE_WAIT(wait);
3573         unsigned inflight;
3574         unsigned long timeout;
3575         int ret;
3576
3577         complete(&ctx->completions[1]);
3578
3579         old_fs = get_fs();
3580         set_fs(USER_DS);
3581         old_cred = override_creds(ctx->creds);
3582
3583         ret = timeout = inflight = 0;
3584         while (!kthread_should_park()) {
3585                 unsigned int to_submit;
3586
3587                 if (inflight) {
3588                         unsigned nr_events = 0;
3589
3590                         if (ctx->flags & IORING_SETUP_IOPOLL) {
3591                                 /*
3592                                  * inflight is the count of the maximum possible
3593                                  * entries we submitted, but it can be smaller
3594                                  * if we dropped some of them. If we don't have
3595                                  * poll entries available, then we know that we
3596                                  * have nothing left to poll for. Reset the
3597                                  * inflight count to zero in that case.
3598                                  */
3599                                 mutex_lock(&ctx->uring_lock);
3600                                 if (!list_empty(&ctx->poll_list))
3601                                         __io_iopoll_check(ctx, &nr_events, 0);
3602                                 else
3603                                         inflight = 0;
3604                                 mutex_unlock(&ctx->uring_lock);
3605                         } else {
3606                                 /*
3607                                  * Normal IO, just pretend everything completed.
3608                                  * We don't have to poll completions for that.
3609                                  */
3610                                 nr_events = inflight;
3611                         }
3612
3613                         inflight -= nr_events;
3614                         if (!inflight)
3615                                 timeout = jiffies + ctx->sq_thread_idle;
3616                 }
3617
3618                 to_submit = io_sqring_entries(ctx);
3619
3620                 /*
3621                  * If submit got -EBUSY, flag us as needing the application
3622                  * to enter the kernel to reap and flush events.
3623                  */
3624                 if (!to_submit || ret == -EBUSY) {
3625                         /*
3626                          * We're polling. If we're within the defined idle
3627                          * period, then let us spin without work before going
3628                          * to sleep. The exception is if we got EBUSY doing
3629                          * more IO, we should wait for the application to
3630                          * reap events and wake us up.
3631                          */
3632                         if (inflight ||
3633                             (!time_after(jiffies, timeout) && ret != -EBUSY)) {
3634                                 cond_resched();
3635                                 continue;
3636                         }
3637
3638                         /*
3639                          * Drop cur_mm before scheduling, we can't hold it for
3640                          * long periods (or over schedule()). Do this before
3641                          * adding ourselves to the waitqueue, as the unuse/drop
3642                          * may sleep.
3643                          */
3644                         if (cur_mm) {
3645                                 unuse_mm(cur_mm);
3646                                 mmput(cur_mm);
3647                                 cur_mm = NULL;
3648                         }
3649
3650                         prepare_to_wait(&ctx->sqo_wait, &wait,
3651                                                 TASK_INTERRUPTIBLE);
3652
3653                         /* Tell userspace we may need a wakeup call */
3654                         ctx->rings->sq_flags |= IORING_SQ_NEED_WAKEUP;
3655                         /* make sure to read SQ tail after writing flags */
3656                         smp_mb();
3657
3658                         to_submit = io_sqring_entries(ctx);
3659                         if (!to_submit || ret == -EBUSY) {
3660                                 if (kthread_should_park()) {
3661                                         finish_wait(&ctx->sqo_wait, &wait);
3662                                         break;
3663                                 }
3664                                 if (signal_pending(current))
3665                                         flush_signals(current);
3666                                 schedule();
3667                                 finish_wait(&ctx->sqo_wait, &wait);
3668
3669                                 ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
3670                                 continue;
3671                         }
3672                         finish_wait(&ctx->sqo_wait, &wait);
3673
3674                         ctx->rings->sq_flags &= ~IORING_SQ_NEED_WAKEUP;
3675                 }
3676
3677                 to_submit = min(to_submit, ctx->sq_entries);
3678                 mutex_lock(&ctx->uring_lock);
3679                 ret = io_submit_sqes(ctx, to_submit, NULL, -1, &cur_mm, true);
3680                 mutex_unlock(&ctx->uring_lock);
3681                 if (ret > 0)
3682                         inflight += ret;
3683         }
3684
3685         set_fs(old_fs);
3686         if (cur_mm) {
3687                 unuse_mm(cur_mm);
3688                 mmput(cur_mm);
3689         }
3690         revert_creds(old_cred);
3691
3692         kthread_parkme();
3693
3694         return 0;
3695 }
3696
3697 struct io_wait_queue {
3698         struct wait_queue_entry wq;
3699         struct io_ring_ctx *ctx;
3700         unsigned to_wait;
3701         unsigned nr_timeouts;
3702 };
3703
3704 static inline bool io_should_wake(struct io_wait_queue *iowq, bool noflush)
3705 {
3706         struct io_ring_ctx *ctx = iowq->ctx;
3707
3708         /*
3709          * Wake up if we have enough events, or if a timeout occurred since we
3710          * started waiting. For timeouts, we always want to return to userspace,
3711          * regardless of event count.
3712          */
3713         return io_cqring_events(ctx, noflush) >= iowq->to_wait ||
3714                         atomic_read(&ctx->cq_timeouts) != iowq->nr_timeouts;
3715 }
3716
3717 static int io_wake_function(struct wait_queue_entry *curr, unsigned int mode,
3718                             int wake_flags, void *key)
3719 {
3720         struct io_wait_queue *iowq = container_of(curr, struct io_wait_queue,
3721                                                         wq);
3722
3723         /* use noflush == true, as we can't safely rely on locking context */
3724         if (!io_should_wake(iowq, true))
3725                 return -1;
3726
3727         return autoremove_wake_function(curr, mode, wake_flags, key);
3728 }
3729
3730 /*
3731  * Wait until events become available, if we don't already have some. The
3732  * application must reap them itself, as they reside on the shared cq ring.
3733  */
3734 static int io_cqring_wait(struct io_ring_ctx *ctx, int min_events,
3735                           const sigset_t __user *sig, size_t sigsz)
3736 {
3737         struct io_wait_queue iowq = {
3738                 .wq = {
3739                         .private        = current,
3740                         .func           = io_wake_function,
3741                         .entry          = LIST_HEAD_INIT(iowq.wq.entry),
3742                 },
3743                 .ctx            = ctx,
3744                 .to_wait        = min_events,
3745         };
3746         struct io_rings *rings = ctx->rings;
3747         int ret = 0;
3748
3749         if (io_cqring_events(ctx, false) >= min_events)
3750                 return 0;
3751
3752         if (sig) {
3753 #ifdef CONFIG_COMPAT
3754                 if (in_compat_syscall())
3755                         ret = set_compat_user_sigmask((const compat_sigset_t __user *)sig,
3756                                                       sigsz);
3757                 else
3758 #endif
3759                         ret = set_user_sigmask(sig, sigsz);
3760
3761                 if (ret)
3762                         return ret;
3763         }
3764
3765         iowq.nr_timeouts = atomic_read(&ctx->cq_timeouts);
3766         trace_io_uring_cqring_wait(ctx, min_events);
3767         do {
3768                 prepare_to_wait_exclusive(&ctx->wait, &iowq.wq,
3769                                                 TASK_INTERRUPTIBLE);
3770                 if (io_should_wake(&iowq, false))
3771                         break;
3772                 schedule();
3773                 if (signal_pending(current)) {
3774                         ret = -EINTR;
3775                         break;
3776                 }
3777         } while (1);
3778         finish_wait(&ctx->wait, &iowq.wq);
3779
3780         restore_saved_sigmask_unless(ret == -EINTR);
3781
3782         return READ_ONCE(rings->cq.head) == READ_ONCE(rings->cq.tail) ? ret : 0;
3783 }
3784
3785 static void __io_sqe_files_unregister(struct io_ring_ctx *ctx)
3786 {
3787 #if defined(CONFIG_UNIX)
3788         if (ctx->ring_sock) {
3789                 struct sock *sock = ctx->ring_sock->sk;
3790                 struct sk_buff *skb;
3791
3792                 while ((skb = skb_dequeue(&sock->sk_receive_queue)) != NULL)
3793                         kfree_skb(skb);
3794         }
3795 #else
3796         int i;
3797
3798         for (i = 0; i < ctx->nr_user_files; i++) {
3799                 struct file *file;
3800
3801                 file = io_file_from_index(ctx, i);
3802                 if (file)
3803                         fput(file);
3804         }
3805 #endif
3806 }
3807
3808 static int io_sqe_files_unregister(struct io_ring_ctx *ctx)
3809 {
3810         unsigned nr_tables, i;
3811
3812         if (!ctx->file_table)
3813                 return -ENXIO;
3814
3815         __io_sqe_files_unregister(ctx);
3816         nr_tables = DIV_ROUND_UP(ctx->nr_user_files, IORING_MAX_FILES_TABLE);
3817         for (i = 0; i < nr_tables; i++)
3818                 kfree(ctx->file_table[i].files);
3819         kfree(ctx->file_table);
3820         ctx->file_table = NULL;
3821         ctx->nr_user_files = 0;
3822         return 0;
3823 }
3824
3825 static void io_sq_thread_stop(struct io_ring_ctx *ctx)
3826 {
3827         if (ctx->sqo_thread) {
3828                 wait_for_completion(&ctx->completions[1]);
3829                 /*
3830                  * The park is a bit of a work-around, without it we get
3831                  * warning spews on shutdown with SQPOLL set and affinity
3832                  * set to a single CPU.
3833                  */
3834                 kthread_park(ctx->sqo_thread);
3835                 kthread_stop(ctx->sqo_thread);
3836                 ctx->sqo_thread = NULL;
3837         }
3838 }
3839
3840 static void io_finish_async(struct io_ring_ctx *ctx)
3841 {
3842         io_sq_thread_stop(ctx);
3843
3844         if (ctx->io_wq) {
3845                 io_wq_destroy(ctx->io_wq);
3846                 ctx->io_wq = NULL;
3847         }
3848 }
3849
3850 #if defined(CONFIG_UNIX)
3851 static void io_destruct_skb(struct sk_buff *skb)
3852 {
3853         struct io_ring_ctx *ctx = skb->sk->sk_user_data;
3854
3855         if (ctx->io_wq)
3856                 io_wq_flush(ctx->io_wq);
3857
3858         unix_destruct_scm(skb);
3859 }
3860
3861 /*
3862  * Ensure the UNIX gc is aware of our file set, so we are certain that
3863  * the io_uring can be safely unregistered on process exit, even if we have
3864  * loops in the file referencing.
3865  */
3866 static int __io_sqe_files_scm(struct io_ring_ctx *ctx, int nr, int offset)
3867 {
3868         struct sock *sk = ctx->ring_sock->sk;
3869         struct scm_fp_list *fpl;
3870         struct sk_buff *skb;
3871         int i, nr_files;
3872
3873         if (!capable(CAP_SYS_RESOURCE) && !capable(CAP_SYS_ADMIN)) {
3874                 unsigned long inflight = ctx->user->unix_inflight + nr;
3875
3876                 if (inflight > task_rlimit(current, RLIMIT_NOFILE))
3877                         return -EMFILE;
3878         }
3879
3880         fpl = kzalloc(sizeof(*fpl), GFP_KERNEL);
3881         if (!fpl)
3882                 return -ENOMEM;
3883
3884         skb = alloc_skb(0, GFP_KERNEL);
3885         if (!skb) {
3886                 kfree(fpl);
3887                 return -ENOMEM;
3888         }
3889
3890         skb->sk = sk;
3891
3892         nr_files = 0;
3893         fpl->user = get_uid(ctx->user);
3894         for (i = 0; i < nr; i++) {
3895                 struct file *file = io_file_from_index(ctx, i + offset);
3896
3897                 if (!file)
3898                         continue;
3899                 fpl->fp[nr_files] = get_file(file);
3900                 unix_inflight(fpl->user, fpl->fp[nr_files]);
3901                 nr_files++;
3902         }
3903
3904         if (nr_files) {
3905                 fpl->max = SCM_MAX_FD;
3906                 fpl->count = nr_files;
3907                 UNIXCB(skb).fp = fpl;
3908                 skb->destructor = io_destruct_skb;
3909                 refcount_add(skb->truesize, &sk->sk_wmem_alloc);
3910                 skb_queue_head(&sk->sk_receive_queue, skb);
3911
3912                 for (i = 0; i < nr_files; i++)
3913                         fput(fpl->fp[i]);
3914         } else {
3915                 kfree_skb(skb);
3916                 kfree(fpl);
3917         }
3918
3919         return 0;
3920 }
3921
3922 /*
3923  * If UNIX sockets are enabled, fd passing can cause a reference cycle which
3924  * causes regular reference counting to break down. We rely on the UNIX
3925  * garbage collection to take care of this problem for us.
3926  */
3927 static int io_sqe_files_scm(struct io_ring_ctx *ctx)
3928 {
3929         unsigned left, total;
3930         int ret = 0;
3931
3932         total = 0;
3933         left = ctx->nr_user_files;
3934         while (left) {
3935                 unsigned this_files = min_t(unsigned, left, SCM_MAX_FD);
3936
3937                 ret = __io_sqe_files_scm(ctx, this_files, total);
3938                 if (ret)
3939                         break;
3940                 left -= this_files;
3941                 total += this_files;
3942         }
3943
3944         if (!ret)
3945                 return 0;
3946
3947         while (total < ctx->nr_user_files) {
3948                 struct file *file = io_file_from_index(ctx, total);
3949
3950                 if (file)
3951                         fput(file);
3952                 total++;
3953         }
3954
3955         return ret;
3956 }
3957 #else
3958 static int io_sqe_files_scm(struct io_ring_ctx *ctx)
3959 {
3960         return 0;
3961 }
3962 #endif
3963
3964 static int io_sqe_alloc_file_tables(struct io_ring_ctx *ctx, unsigned nr_tables,
3965                                     unsigned nr_files)
3966 {
3967         int i;
3968
3969         for (i = 0; i < nr_tables; i++) {
3970                 struct fixed_file_table *table = &ctx->file_table[i];
3971                 unsigned this_files;
3972
3973                 this_files = min(nr_files, IORING_MAX_FILES_TABLE);
3974                 table->files = kcalloc(this_files, sizeof(struct file *),
3975                                         GFP_KERNEL);
3976                 if (!table->files)
3977                         break;
3978                 nr_files -= this_files;
3979         }
3980
3981         if (i == nr_tables)
3982                 return 0;
3983
3984         for (i = 0; i < nr_tables; i++) {
3985                 struct fixed_file_table *table = &ctx->file_table[i];
3986                 kfree(table->files);
3987         }
3988         return 1;
3989 }
3990
3991 static int io_sqe_files_register(struct io_ring_ctx *ctx, void __user *arg,
3992                                  unsigned nr_args)
3993 {
3994         __s32 __user *fds = (__s32 __user *) arg;
3995         unsigned nr_tables;
3996         int fd, ret = 0;
3997         unsigned i;
3998
3999         if (ctx->file_table)
4000                 return -EBUSY;
4001         if (!nr_args)
4002                 return -EINVAL;
4003         if (nr_args > IORING_MAX_FIXED_FILES)
4004                 return -EMFILE;
4005
4006         nr_tables = DIV_ROUND_UP(nr_args, IORING_MAX_FILES_TABLE);
4007         ctx->file_table = kcalloc(nr_tables, sizeof(struct fixed_file_table),
4008                                         GFP_KERNEL);
4009         if (!ctx->file_table)
4010                 return -ENOMEM;
4011
4012         if (io_sqe_alloc_file_tables(ctx, nr_tables, nr_args)) {
4013                 kfree(ctx->file_table);
4014                 ctx->file_table = NULL;
4015                 return -ENOMEM;
4016         }
4017
4018         for (i = 0; i < nr_args; i++, ctx->nr_user_files++) {
4019                 struct fixed_file_table *table;
4020                 unsigned index;
4021
4022                 ret = -EFAULT;
4023                 if (copy_from_user(&fd, &fds[i], sizeof(fd)))
4024                         break;
4025                 /* allow sparse sets */
4026                 if (fd == -1) {
4027                         ret = 0;
4028                         continue;
4029                 }
4030
4031                 table = &ctx->file_table[i >> IORING_FILE_TABLE_SHIFT];
4032                 index = i & IORING_FILE_TABLE_MASK;
4033                 table->files[index] = fget(fd);
4034
4035                 ret = -EBADF;
4036                 if (!table->files[index])
4037                         break;
4038                 /*
4039                  * Don't allow io_uring instances to be registered. If UNIX
4040                  * isn't enabled, then this causes a reference cycle and this
4041                  * instance can never get freed. If UNIX is enabled we'll
4042                  * handle it just fine, but there's still no point in allowing
4043                  * a ring fd as it doesn't support regular read/write anyway.
4044                  */
4045                 if (table->files[index]->f_op == &io_uring_fops) {
4046                         fput(table->files[index]);
4047                         break;
4048                 }
4049                 ret = 0;
4050         }
4051
4052         if (ret) {
4053                 for (i = 0; i < ctx->nr_user_files; i++) {
4054                         struct file *file;
4055
4056                         file = io_file_from_index(ctx, i);
4057                         if (file)
4058                                 fput(file);
4059                 }
4060                 for (i = 0; i < nr_tables; i++)
4061                         kfree(ctx->file_table[i].files);
4062
4063                 kfree(ctx->file_table);
4064                 ctx->file_table = NULL;
4065                 ctx->nr_user_files = 0;
4066                 return ret;
4067         }
4068
4069         ret = io_sqe_files_scm(ctx);
4070         if (ret)
4071                 io_sqe_files_unregister(ctx);
4072
4073         return ret;
4074 }
4075
4076 static void io_sqe_file_unregister(struct io_ring_ctx *ctx, int index)
4077 {
4078 #if defined(CONFIG_UNIX)
4079         struct file *file = io_file_from_index(ctx, index);
4080         struct sock *sock = ctx->ring_sock->sk;
4081         struct sk_buff_head list, *head = &sock->sk_receive_queue;
4082         struct sk_buff *skb;
4083         int i;
4084
4085         __skb_queue_head_init(&list);
4086
4087         /*
4088          * Find the skb that holds this file in its SCM_RIGHTS. When found,
4089          * remove this entry and rearrange the file array.
4090          */
4091         skb = skb_dequeue(head);
4092         while (skb) {
4093                 struct scm_fp_list *fp;
4094
4095                 fp = UNIXCB(skb).fp;
4096                 for (i = 0; i < fp->count; i++) {
4097                         int left;
4098
4099                         if (fp->fp[i] != file)
4100                                 continue;
4101
4102                         unix_notinflight(fp->user, fp->fp[i]);
4103                         left = fp->count - 1 - i;
4104                         if (left) {
4105                                 memmove(&fp->fp[i], &fp->fp[i + 1],
4106                                                 left * sizeof(struct file *));
4107                         }
4108                         fp->count--;
4109                         if (!fp->count) {
4110                                 kfree_skb(skb);
4111                                 skb = NULL;
4112                         } else {
4113                                 __skb_queue_tail(&list, skb);
4114                         }
4115                         fput(file);
4116                         file = NULL;
4117                         break;
4118                 }
4119
4120                 if (!file)
4121                         break;
4122
4123                 __skb_queue_tail(&list, skb);
4124
4125                 skb = skb_dequeue(head);
4126         }
4127
4128         if (skb_peek(&list)) {
4129                 spin_lock_irq(&head->lock);
4130                 while ((skb = __skb_dequeue(&list)) != NULL)
4131                         __skb_queue_tail(head, skb);
4132                 spin_unlock_irq(&head->lock);
4133         }
4134 #else
4135         fput(io_file_from_index(ctx, index));
4136 #endif
4137 }
4138
4139 static int io_sqe_file_register(struct io_ring_ctx *ctx, struct file *file,
4140                                 int index)
4141 {
4142 #if defined(CONFIG_UNIX)
4143         struct sock *sock = ctx->ring_sock->sk;
4144         struct sk_buff_head *head = &sock->sk_receive_queue;
4145         struct sk_buff *skb;
4146
4147         /*
4148          * See if we can merge this file into an existing skb SCM_RIGHTS
4149          * file set. If there's no room, fall back to allocating a new skb
4150          * and filling it in.
4151          */
4152         spin_lock_irq(&head->lock);
4153         skb = skb_peek(head);
4154         if (skb) {
4155                 struct scm_fp_list *fpl = UNIXCB(skb).fp;
4156
4157                 if (fpl->count < SCM_MAX_FD) {
4158                         __skb_unlink(skb, head);
4159                         spin_unlock_irq(&head->lock);
4160                         fpl->fp[fpl->count] = get_file(file);
4161                         unix_inflight(fpl->user, fpl->fp[fpl->count]);
4162                         fpl->count++;
4163                         spin_lock_irq(&head->lock);
4164                         __skb_queue_head(head, skb);
4165                 } else {
4166                         skb = NULL;
4167                 }
4168         }
4169         spin_unlock_irq(&head->lock);
4170
4171         if (skb) {
4172                 fput(file);
4173                 return 0;
4174         }
4175
4176         return __io_sqe_files_scm(ctx, 1, index);
4177 #else
4178         return 0;
4179 #endif
4180 }
4181
4182 static int io_sqe_files_update(struct io_ring_ctx *ctx, void __user *arg,
4183                                unsigned nr_args)
4184 {
4185         struct io_uring_files_update up;
4186         __s32 __user *fds;
4187         int fd, i, err;
4188         __u32 done;
4189
4190         if (!ctx->file_table)
4191                 return -ENXIO;
4192         if (!nr_args)
4193                 return -EINVAL;
4194         if (copy_from_user(&up, arg, sizeof(up)))
4195                 return -EFAULT;
4196         if (check_add_overflow(up.offset, nr_args, &done))
4197                 return -EOVERFLOW;
4198         if (done > ctx->nr_user_files)
4199                 return -EINVAL;
4200
4201         done = 0;
4202         fds = (__s32 __user *) up.fds;
4203         while (nr_args) {
4204                 struct fixed_file_table *table;
4205                 unsigned index;
4206
4207                 err = 0;
4208                 if (copy_from_user(&fd, &fds[done], sizeof(fd))) {
4209                         err = -EFAULT;
4210                         break;
4211                 }
4212                 i = array_index_nospec(up.offset, ctx->nr_user_files);
4213                 table = &ctx->file_table[i >> IORING_FILE_TABLE_SHIFT];
4214                 index = i & IORING_FILE_TABLE_MASK;
4215                 if (table->files[index]) {
4216                         io_sqe_file_unregister(ctx, i);
4217                         table->files[index] = NULL;
4218                 }
4219                 if (fd != -1) {
4220                         struct file *file;
4221
4222                         file = fget(fd);
4223                         if (!file) {
4224                                 err = -EBADF;
4225                                 break;
4226                         }
4227                         /*
4228                          * Don't allow io_uring instances to be registered. If
4229                          * UNIX isn't enabled, then this causes a reference
4230                          * cycle and this instance can never get freed. If UNIX
4231                          * is enabled we'll handle it just fine, but there's
4232                          * still no point in allowing a ring fd as it doesn't
4233                          * support regular read/write anyway.
4234                          */
4235                         if (file->f_op == &io_uring_fops) {
4236                                 fput(file);
4237                                 err = -EBADF;
4238                                 break;
4239                         }
4240                         table->files[index] = file;
4241                         err = io_sqe_file_register(ctx, file, i);
4242                         if (err)
4243                                 break;
4244                 }
4245                 nr_args--;
4246                 done++;
4247                 up.offset++;
4248         }
4249
4250         return done ? done : err;
4251 }
4252
4253 static void io_put_work(struct io_wq_work *work)
4254 {
4255         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
4256
4257         io_put_req(req);
4258 }
4259
4260 static void io_get_work(struct io_wq_work *work)
4261 {
4262         struct io_kiocb *req = container_of(work, struct io_kiocb, work);
4263
4264         refcount_inc(&req->refs);
4265 }
4266
4267 static int io_sq_offload_start(struct io_ring_ctx *ctx,
4268                                struct io_uring_params *p)
4269 {
4270         struct io_wq_data data;
4271         unsigned concurrency;
4272         int ret;
4273
4274         init_waitqueue_head(&ctx->sqo_wait);
4275         mmgrab(current->mm);
4276         ctx->sqo_mm = current->mm;
4277
4278         if (ctx->flags & IORING_SETUP_SQPOLL) {
4279                 ret = -EPERM;
4280                 if (!capable(CAP_SYS_ADMIN))
4281                         goto err;
4282
4283                 ctx->sq_thread_idle = msecs_to_jiffies(p->sq_thread_idle);
4284                 if (!ctx->sq_thread_idle)
4285                         ctx->sq_thread_idle = HZ;
4286
4287                 if (p->flags & IORING_SETUP_SQ_AFF) {
4288                         int cpu = p->sq_thread_cpu;
4289
4290                         ret = -EINVAL;
4291                         if (cpu >= nr_cpu_ids)
4292                                 goto err;
4293                         if (!cpu_online(cpu))
4294                                 goto err;
4295
4296                         ctx->sqo_thread = kthread_create_on_cpu(io_sq_thread,
4297                                                         ctx, cpu,
4298                                                         "io_uring-sq");
4299                 } else {
4300                         ctx->sqo_thread = kthread_create(io_sq_thread, ctx,
4301                                                         "io_uring-sq");
4302                 }
4303                 if (IS_ERR(ctx->sqo_thread)) {
4304                         ret = PTR_ERR(ctx->sqo_thread);
4305                         ctx->sqo_thread = NULL;
4306                         goto err;
4307                 }
4308                 wake_up_process(ctx->sqo_thread);
4309         } else if (p->flags & IORING_SETUP_SQ_AFF) {
4310                 /* Can't have SQ_AFF without SQPOLL */
4311                 ret = -EINVAL;
4312                 goto err;
4313         }
4314
4315         data.mm = ctx->sqo_mm;
4316         data.user = ctx->user;
4317         data.creds = ctx->creds;
4318         data.get_work = io_get_work;
4319         data.put_work = io_put_work;
4320
4321         /* Do QD, or 4 * CPUS, whatever is smallest */
4322         concurrency = min(ctx->sq_entries, 4 * num_online_cpus());
4323         ctx->io_wq = io_wq_create(concurrency, &data);
4324         if (IS_ERR(ctx->io_wq)) {
4325                 ret = PTR_ERR(ctx->io_wq);
4326                 ctx->io_wq = NULL;
4327                 goto err;
4328         }
4329
4330         return 0;
4331 err:
4332         io_finish_async(ctx);
4333         mmdrop(ctx->sqo_mm);
4334         ctx->sqo_mm = NULL;
4335         return ret;
4336 }
4337
4338 static void io_unaccount_mem(struct user_struct *user, unsigned long nr_pages)
4339 {
4340         atomic_long_sub(nr_pages, &user->locked_vm);
4341 }
4342
4343 static int io_account_mem(struct user_struct *user, unsigned long nr_pages)
4344 {
4345         unsigned long page_limit, cur_pages, new_pages;
4346
4347         /* Don't allow more pages than we can safely lock */
4348         page_limit = rlimit(RLIMIT_MEMLOCK) >> PAGE_SHIFT;
4349
4350         do {
4351                 cur_pages = atomic_long_read(&user->locked_vm);
4352                 new_pages = cur_pages + nr_pages;
4353                 if (new_pages > page_limit)
4354                         return -ENOMEM;
4355         } while (atomic_long_cmpxchg(&user->locked_vm, cur_pages,
4356                                         new_pages) != cur_pages);
4357
4358         return 0;
4359 }
4360
4361 static void io_mem_free(void *ptr)
4362 {
4363         struct page *page;
4364
4365         if (!ptr)
4366                 return;
4367
4368         page = virt_to_head_page(ptr);
4369         if (put_page_testzero(page))
4370                 free_compound_page(page);
4371 }
4372
4373 static void *io_mem_alloc(size_t size)
4374 {
4375         gfp_t gfp_flags = GFP_KERNEL | __GFP_ZERO | __GFP_NOWARN | __GFP_COMP |
4376                                 __GFP_NORETRY;
4377
4378         return (void *) __get_free_pages(gfp_flags, get_order(size));
4379 }
4380
4381 static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,
4382                                 size_t *sq_offset)
4383 {
4384         struct io_rings *rings;
4385         size_t off, sq_array_size;
4386
4387         off = struct_size(rings, cqes, cq_entries);
4388         if (off == SIZE_MAX)
4389                 return SIZE_MAX;
4390
4391 #ifdef CONFIG_SMP
4392         off = ALIGN(off, SMP_CACHE_BYTES);
4393         if (off == 0)
4394                 return SIZE_MAX;
4395 #endif
4396
4397         sq_array_size = array_size(sizeof(u32), sq_entries);
4398         if (sq_array_size == SIZE_MAX)
4399                 return SIZE_MAX;
4400
4401         if (check_add_overflow(off, sq_array_size, &off))
4402                 return SIZE_MAX;
4403
4404         if (sq_offset)
4405                 *sq_offset = off;
4406
4407         return off;
4408 }
4409
4410 static unsigned long ring_pages(unsigned sq_entries, unsigned cq_entries)
4411 {
4412         size_t pages;
4413
4414         pages = (size_t)1 << get_order(
4415                 rings_size(sq_entries, cq_entries, NULL));
4416         pages += (size_t)1 << get_order(
4417                 array_size(sizeof(struct io_uring_sqe), sq_entries));
4418
4419         return pages;
4420 }
4421
4422 static int io_sqe_buffer_unregister(struct io_ring_ctx *ctx)
4423 {
4424         int i, j;
4425
4426         if (!ctx->user_bufs)
4427                 return -ENXIO;
4428
4429         for (i = 0; i < ctx->nr_user_bufs; i++) {
4430                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
4431
4432                 for (j = 0; j < imu->nr_bvecs; j++)
4433                         put_user_page(imu->bvec[j].bv_page);
4434
4435                 if (ctx->account_mem)
4436                         io_unaccount_mem(ctx->user, imu->nr_bvecs);
4437                 kvfree(imu->bvec);
4438                 imu->nr_bvecs = 0;
4439         }
4440
4441         kfree(ctx->user_bufs);
4442         ctx->user_bufs = NULL;
4443         ctx->nr_user_bufs = 0;
4444         return 0;
4445 }
4446
4447 static int io_copy_iov(struct io_ring_ctx *ctx, struct iovec *dst,
4448                        void __user *arg, unsigned index)
4449 {
4450         struct iovec __user *src;
4451
4452 #ifdef CONFIG_COMPAT
4453         if (ctx->compat) {
4454                 struct compat_iovec __user *ciovs;
4455                 struct compat_iovec ciov;
4456
4457                 ciovs = (struct compat_iovec __user *) arg;
4458                 if (copy_from_user(&ciov, &ciovs[index], sizeof(ciov)))
4459                         return -EFAULT;
4460
4461                 dst->iov_base = (void __user *) (unsigned long) ciov.iov_base;
4462                 dst->iov_len = ciov.iov_len;
4463                 return 0;
4464         }
4465 #endif
4466         src = (struct iovec __user *) arg;
4467         if (copy_from_user(dst, &src[index], sizeof(*dst)))
4468                 return -EFAULT;
4469         return 0;
4470 }
4471
4472 static int io_sqe_buffer_register(struct io_ring_ctx *ctx, void __user *arg,
4473                                   unsigned nr_args)
4474 {
4475         struct vm_area_struct **vmas = NULL;
4476         struct page **pages = NULL;
4477         int i, j, got_pages = 0;
4478         int ret = -EINVAL;
4479
4480         if (ctx->user_bufs)
4481                 return -EBUSY;
4482         if (!nr_args || nr_args > UIO_MAXIOV)
4483                 return -EINVAL;
4484
4485         ctx->user_bufs = kcalloc(nr_args, sizeof(struct io_mapped_ubuf),
4486                                         GFP_KERNEL);
4487         if (!ctx->user_bufs)
4488                 return -ENOMEM;
4489
4490         for (i = 0; i < nr_args; i++) {
4491                 struct io_mapped_ubuf *imu = &ctx->user_bufs[i];
4492                 unsigned long off, start, end, ubuf;
4493                 int pret, nr_pages;
4494                 struct iovec iov;
4495                 size_t size;
4496
4497                 ret = io_copy_iov(ctx, &iov, arg, i);
4498                 if (ret)
4499                         goto err;
4500
4501                 /*
4502                  * Don't impose further limits on the size and buffer
4503                  * constraints here, we'll -EINVAL later when IO is
4504                  * submitted if they are wrong.
4505                  */
4506                 ret = -EFAULT;
4507                 if (!iov.iov_base || !iov.iov_len)
4508                         goto err;
4509
4510                 /* arbitrary limit, but we need something */
4511                 if (iov.iov_len > SZ_1G)
4512                         goto err;
4513
4514                 ubuf = (unsigned long) iov.iov_base;
4515                 end = (ubuf + iov.iov_len + PAGE_SIZE - 1) >> PAGE_SHIFT;
4516                 start = ubuf >> PAGE_SHIFT;
4517                 nr_pages = end - start;
4518
4519                 if (ctx->account_mem) {
4520                         ret = io_account_mem(ctx->user, nr_pages);
4521                         if (ret)
4522                                 goto err;
4523                 }
4524
4525                 ret = 0;
4526                 if (!pages || nr_pages > got_pages) {
4527                         kfree(vmas);
4528                         kfree(pages);
4529                         pages = kvmalloc_array(nr_pages, sizeof(struct page *),
4530                                                 GFP_KERNEL);
4531                         vmas = kvmalloc_array(nr_pages,
4532                                         sizeof(struct vm_area_struct *),
4533                                         GFP_KERNEL);
4534                         if (!pages || !vmas) {
4535                                 ret = -ENOMEM;
4536                                 if (ctx->account_mem)
4537                                         io_unaccount_mem(ctx->user, nr_pages);
4538                                 goto err;
4539                         }
4540                         got_pages = nr_pages;
4541                 }
4542
4543                 imu->bvec = kvmalloc_array(nr_pages, sizeof(struct bio_vec),
4544                                                 GFP_KERNEL);
4545                 ret = -ENOMEM;
4546                 if (!imu->bvec) {
4547                         if (ctx->account_mem)
4548                                 io_unaccount_mem(ctx->user, nr_pages);
4549                         goto err;
4550                 }
4551
4552                 ret = 0;
4553                 down_read(&current->mm->mmap_sem);
4554                 pret = get_user_pages(ubuf, nr_pages,
4555                                       FOLL_WRITE | FOLL_LONGTERM,
4556                                       pages, vmas);
4557                 if (pret == nr_pages) {
4558                         /* don't support file backed memory */
4559                         for (j = 0; j < nr_pages; j++) {
4560                                 struct vm_area_struct *vma = vmas[j];
4561
4562                                 if (vma->vm_file &&
4563                                     !is_file_hugepages(vma->vm_file)) {
4564                                         ret = -EOPNOTSUPP;
4565                                         break;
4566                                 }
4567                         }
4568                 } else {
4569                         ret = pret < 0 ? pret : -EFAULT;
4570                 }
4571                 up_read(&current->mm->mmap_sem);
4572                 if (ret) {
4573                         /*
4574                          * if we did partial map, or found file backed vmas,
4575                          * release any pages we did get
4576                          */
4577                         if (pret > 0)
4578                                 put_user_pages(pages, pret);
4579                         if (ctx->account_mem)
4580                                 io_unaccount_mem(ctx->user, nr_pages);
4581                         kvfree(imu->bvec);
4582                         goto err;
4583                 }
4584
4585                 off = ubuf & ~PAGE_MASK;
4586                 size = iov.iov_len;
4587                 for (j = 0; j < nr_pages; j++) {
4588                         size_t vec_len;
4589
4590                         vec_len = min_t(size_t, size, PAGE_SIZE - off);
4591                         imu->bvec[j].bv_page = pages[j];
4592                         imu->bvec[j].bv_len = vec_len;
4593                         imu->bvec[j].bv_offset = off;
4594                         off = 0;
4595                         size -= vec_len;
4596                 }
4597                 /* store original address for later verification */
4598                 imu->ubuf = ubuf;
4599                 imu->len = iov.iov_len;
4600                 imu->nr_bvecs = nr_pages;
4601
4602                 ctx->nr_user_bufs++;
4603         }
4604         kvfree(pages);
4605         kvfree(vmas);
4606         return 0;
4607 err:
4608         kvfree(pages);
4609         kvfree(vmas);
4610         io_sqe_buffer_unregister(ctx);
4611         return ret;
4612 }
4613
4614 static int io_eventfd_register(struct io_ring_ctx *ctx, void __user *arg)
4615 {
4616         __s32 __user *fds = arg;
4617         int fd;
4618
4619         if (ctx->cq_ev_fd)
4620                 return -EBUSY;
4621
4622         if (copy_from_user(&fd, fds, sizeof(*fds)))
4623                 return -EFAULT;
4624
4625         ctx->cq_ev_fd = eventfd_ctx_fdget(fd);
4626         if (IS_ERR(ctx->cq_ev_fd)) {
4627                 int ret = PTR_ERR(ctx->cq_ev_fd);
4628                 ctx->cq_ev_fd = NULL;
4629                 return ret;
4630         }
4631
4632         return 0;
4633 }
4634
4635 static int io_eventfd_unregister(struct io_ring_ctx *ctx)
4636 {
4637         if (ctx->cq_ev_fd) {
4638                 eventfd_ctx_put(ctx->cq_ev_fd);
4639                 ctx->cq_ev_fd = NULL;
4640                 return 0;
4641         }
4642
4643         return -ENXIO;
4644 }
4645
4646 static void io_ring_ctx_free(struct io_ring_ctx *ctx)
4647 {
4648         io_finish_async(ctx);
4649         if (ctx->sqo_mm)
4650                 mmdrop(ctx->sqo_mm);
4651
4652         io_iopoll_reap_events(ctx);
4653         io_sqe_buffer_unregister(ctx);
4654         io_sqe_files_unregister(ctx);
4655         io_eventfd_unregister(ctx);
4656
4657 #if defined(CONFIG_UNIX)
4658         if (ctx->ring_sock) {
4659                 ctx->ring_sock->file = NULL; /* so that iput() is called */
4660                 sock_release(ctx->ring_sock);
4661         }
4662 #endif
4663
4664         io_mem_free(ctx->rings);
4665         io_mem_free(ctx->sq_sqes);
4666
4667         percpu_ref_exit(&ctx->refs);
4668         if (ctx->account_mem)
4669                 io_unaccount_mem(ctx->user,
4670                                 ring_pages(ctx->sq_entries, ctx->cq_entries));
4671         free_uid(ctx->user);
4672         put_cred(ctx->creds);
4673         kfree(ctx->completions);
4674         kfree(ctx->cancel_hash);
4675         kmem_cache_free(req_cachep, ctx->fallback_req);
4676         kfree(ctx);
4677 }
4678
4679 static __poll_t io_uring_poll(struct file *file, poll_table *wait)
4680 {
4681         struct io_ring_ctx *ctx = file->private_data;
4682         __poll_t mask = 0;
4683
4684         poll_wait(file, &ctx->cq_wait, wait);
4685         /*
4686          * synchronizes with barrier from wq_has_sleeper call in
4687          * io_commit_cqring
4688          */
4689         smp_rmb();
4690         if (READ_ONCE(ctx->rings->sq.tail) - ctx->cached_sq_head !=
4691             ctx->rings->sq_ring_entries)
4692                 mask |= EPOLLOUT | EPOLLWRNORM;
4693         if (READ_ONCE(ctx->rings->cq.head) != ctx->cached_cq_tail)
4694                 mask |= EPOLLIN | EPOLLRDNORM;
4695
4696         return mask;
4697 }
4698
4699 static int io_uring_fasync(int fd, struct file *file, int on)
4700 {
4701         struct io_ring_ctx *ctx = file->private_data;
4702
4703         return fasync_helper(fd, file, on, &ctx->cq_fasync);
4704 }
4705
4706 static void io_ring_ctx_wait_and_kill(struct io_ring_ctx *ctx)
4707 {
4708         mutex_lock(&ctx->uring_lock);
4709         percpu_ref_kill(&ctx->refs);
4710         mutex_unlock(&ctx->uring_lock);
4711
4712         io_kill_timeouts(ctx);
4713         io_poll_remove_all(ctx);
4714
4715         if (ctx->io_wq)
4716                 io_wq_cancel_all(ctx->io_wq);
4717
4718         io_iopoll_reap_events(ctx);
4719         /* if we failed setting up the ctx, we might not have any rings */
4720         if (ctx->rings)
4721                 io_cqring_overflow_flush(ctx, true);
4722         wait_for_completion(&ctx->completions[0]);
4723         io_ring_ctx_free(ctx);
4724 }
4725
4726 static int io_uring_release(struct inode *inode, struct file *file)
4727 {
4728         struct io_ring_ctx *ctx = file->private_data;
4729
4730         file->private_data = NULL;
4731         io_ring_ctx_wait_and_kill(ctx);
4732         return 0;
4733 }
4734
4735 static void io_uring_cancel_files(struct io_ring_ctx *ctx,
4736                                   struct files_struct *files)
4737 {
4738         struct io_kiocb *req;
4739         DEFINE_WAIT(wait);
4740
4741         while (!list_empty_careful(&ctx->inflight_list)) {
4742                 struct io_kiocb *cancel_req = NULL;
4743
4744                 spin_lock_irq(&ctx->inflight_lock);
4745                 list_for_each_entry(req, &ctx->inflight_list, inflight_entry) {
4746                         if (req->work.files != files)
4747                                 continue;
4748                         /* req is being completed, ignore */
4749                         if (!refcount_inc_not_zero(&req->refs))
4750                                 continue;
4751                         cancel_req = req;
4752                         break;
4753                 }
4754                 if (cancel_req)
4755                         prepare_to_wait(&ctx->inflight_wait, &wait,
4756                                                 TASK_UNINTERRUPTIBLE);
4757                 spin_unlock_irq(&ctx->inflight_lock);
4758
4759                 /* We need to keep going until we don't find a matching req */
4760                 if (!cancel_req)
4761                         break;
4762
4763                 io_wq_cancel_work(ctx->io_wq, &cancel_req->work);
4764                 io_put_req(cancel_req);
4765                 schedule();
4766         }
4767         finish_wait(&ctx->inflight_wait, &wait);
4768 }
4769
4770 static int io_uring_flush(struct file *file, void *data)
4771 {
4772         struct io_ring_ctx *ctx = file->private_data;
4773
4774         io_uring_cancel_files(ctx, data);
4775         if (fatal_signal_pending(current) || (current->flags & PF_EXITING)) {
4776                 io_cqring_overflow_flush(ctx, true);
4777                 io_wq_cancel_all(ctx->io_wq);
4778         }
4779         return 0;
4780 }
4781
4782 static void *io_uring_validate_mmap_request(struct file *file,
4783                                             loff_t pgoff, size_t sz)
4784 {
4785         struct io_ring_ctx *ctx = file->private_data;
4786         loff_t offset = pgoff << PAGE_SHIFT;
4787         struct page *page;
4788         void *ptr;
4789
4790         switch (offset) {
4791         case IORING_OFF_SQ_RING:
4792         case IORING_OFF_CQ_RING:
4793                 ptr = ctx->rings;
4794                 break;
4795         case IORING_OFF_SQES:
4796                 ptr = ctx->sq_sqes;
4797                 break;
4798         default:
4799                 return ERR_PTR(-EINVAL);
4800         }
4801
4802         page = virt_to_head_page(ptr);
4803         if (sz > page_size(page))
4804                 return ERR_PTR(-EINVAL);
4805
4806         return ptr;
4807 }
4808
4809 #ifdef CONFIG_MMU
4810
4811 static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
4812 {
4813         size_t sz = vma->vm_end - vma->vm_start;
4814         unsigned long pfn;
4815         void *ptr;
4816
4817         ptr = io_uring_validate_mmap_request(file, vma->vm_pgoff, sz);
4818         if (IS_ERR(ptr))
4819                 return PTR_ERR(ptr);
4820
4821         pfn = virt_to_phys(ptr) >> PAGE_SHIFT;
4822         return remap_pfn_range(vma, vma->vm_start, pfn, sz, vma->vm_page_prot);
4823 }
4824
4825 #else /* !CONFIG_MMU */
4826
4827 static int io_uring_mmap(struct file *file, struct vm_area_struct *vma)
4828 {
4829         return vma->vm_flags & (VM_SHARED | VM_MAYSHARE) ? 0 : -EINVAL;
4830 }
4831
4832 static unsigned int io_uring_nommu_mmap_capabilities(struct file *file)
4833 {
4834         return NOMMU_MAP_DIRECT | NOMMU_MAP_READ | NOMMU_MAP_WRITE;
4835 }
4836
4837 static unsigned long io_uring_nommu_get_unmapped_area(struct file *file,
4838         unsigned long addr, unsigned long len,
4839         unsigned long pgoff, unsigned long flags)
4840 {
4841         void *ptr;
4842
4843         ptr = io_uring_validate_mmap_request(file, pgoff, len);
4844         if (IS_ERR(ptr))
4845                 return PTR_ERR(ptr);
4846
4847         return (unsigned long) ptr;
4848 }
4849
4850 #endif /* !CONFIG_MMU */
4851
4852 SYSCALL_DEFINE6(io_uring_enter, unsigned int, fd, u32, to_submit,
4853                 u32, min_complete, u32, flags, const sigset_t __user *, sig,
4854                 size_t, sigsz)
4855 {
4856         struct io_ring_ctx *ctx;
4857         long ret = -EBADF;
4858         int submitted = 0;
4859         struct fd f;
4860
4861         if (flags & ~(IORING_ENTER_GETEVENTS | IORING_ENTER_SQ_WAKEUP))
4862                 return -EINVAL;
4863
4864         f = fdget(fd);
4865         if (!f.file)
4866                 return -EBADF;
4867
4868         ret = -EOPNOTSUPP;
4869         if (f.file->f_op != &io_uring_fops)
4870                 goto out_fput;
4871
4872         ret = -ENXIO;
4873         ctx = f.file->private_data;
4874         if (!percpu_ref_tryget(&ctx->refs))
4875                 goto out_fput;
4876
4877         /*
4878          * For SQ polling, the thread will do all submissions and completions.
4879          * Just return the requested submit count, and wake the thread if
4880          * we were asked to.
4881          */
4882         ret = 0;
4883         if (ctx->flags & IORING_SETUP_SQPOLL) {
4884                 if (!list_empty_careful(&ctx->cq_overflow_list))
4885                         io_cqring_overflow_flush(ctx, false);
4886                 if (flags & IORING_ENTER_SQ_WAKEUP)
4887                         wake_up(&ctx->sqo_wait);
4888                 submitted = to_submit;
4889         } else if (to_submit) {
4890                 struct mm_struct *cur_mm;
4891
4892                 to_submit = min(to_submit, ctx->sq_entries);
4893                 mutex_lock(&ctx->uring_lock);
4894                 /* already have mm, so io_submit_sqes() won't try to grab it */
4895                 cur_mm = ctx->sqo_mm;
4896                 submitted = io_submit_sqes(ctx, to_submit, f.file, fd,
4897                                            &cur_mm, false);
4898                 mutex_unlock(&ctx->uring_lock);
4899         }
4900         if (flags & IORING_ENTER_GETEVENTS) {
4901                 unsigned nr_events = 0;
4902
4903                 min_complete = min(min_complete, ctx->cq_entries);
4904
4905                 if (ctx->flags & IORING_SETUP_IOPOLL) {
4906                         ret = io_iopoll_check(ctx, &nr_events, min_complete);
4907                 } else {
4908                         ret = io_cqring_wait(ctx, min_complete, sig, sigsz);
4909                 }
4910         }
4911
4912         percpu_ref_put(&ctx->refs);
4913 out_fput:
4914         fdput(f);
4915         return submitted ? submitted : ret;
4916 }
4917
4918 static const struct file_operations io_uring_fops = {
4919         .release        = io_uring_release,
4920         .flush          = io_uring_flush,
4921         .mmap           = io_uring_mmap,
4922 #ifndef CONFIG_MMU
4923         .get_unmapped_area = io_uring_nommu_get_unmapped_area,
4924         .mmap_capabilities = io_uring_nommu_mmap_capabilities,
4925 #endif
4926         .poll           = io_uring_poll,
4927         .fasync         = io_uring_fasync,
4928 };
4929
4930 static int io_allocate_scq_urings(struct io_ring_ctx *ctx,
4931                                   struct io_uring_params *p)
4932 {
4933         struct io_rings *rings;
4934         size_t size, sq_array_offset;
4935
4936         size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset);
4937         if (size == SIZE_MAX)
4938                 return -EOVERFLOW;
4939
4940         rings = io_mem_alloc(size);
4941         if (!rings)
4942                 return -ENOMEM;
4943
4944         ctx->rings = rings;
4945         ctx->sq_array = (u32 *)((char *)rings + sq_array_offset);
4946         rings->sq_ring_mask = p->sq_entries - 1;
4947         rings->cq_ring_mask = p->cq_entries - 1;
4948         rings->sq_ring_entries = p->sq_entries;
4949         rings->cq_ring_entries = p->cq_entries;
4950         ctx->sq_mask = rings->sq_ring_mask;
4951         ctx->cq_mask = rings->cq_ring_mask;
4952         ctx->sq_entries = rings->sq_ring_entries;
4953         ctx->cq_entries = rings->cq_ring_entries;
4954
4955         size = array_size(sizeof(struct io_uring_sqe), p->sq_entries);
4956         if (size == SIZE_MAX) {
4957                 io_mem_free(ctx->rings);
4958                 ctx->rings = NULL;
4959                 return -EOVERFLOW;
4960         }
4961
4962         ctx->sq_sqes = io_mem_alloc(size);
4963         if (!ctx->sq_sqes) {
4964                 io_mem_free(ctx->rings);
4965                 ctx->rings = NULL;
4966                 return -ENOMEM;
4967         }
4968
4969         return 0;
4970 }
4971
4972 /*
4973  * Allocate an anonymous fd, this is what constitutes the application
4974  * visible backing of an io_uring instance. The application mmaps this
4975  * fd to gain access to the SQ/CQ ring details. If UNIX sockets are enabled,
4976  * we have to tie this fd to a socket for file garbage collection purposes.
4977  */
4978 static int io_uring_get_fd(struct io_ring_ctx *ctx)
4979 {
4980         struct file *file;
4981         int ret;
4982
4983 #if defined(CONFIG_UNIX)
4984         ret = sock_create_kern(&init_net, PF_UNIX, SOCK_RAW, IPPROTO_IP,
4985                                 &ctx->ring_sock);
4986         if (ret)
4987                 return ret;
4988 #endif
4989
4990         ret = get_unused_fd_flags(O_RDWR | O_CLOEXEC);
4991         if (ret < 0)
4992                 goto err;
4993
4994         file = anon_inode_getfile("[io_uring]", &io_uring_fops, ctx,
4995                                         O_RDWR | O_CLOEXEC);
4996         if (IS_ERR(file)) {
4997                 put_unused_fd(ret);
4998                 ret = PTR_ERR(file);
4999                 goto err;
5000         }
5001
5002 #if defined(CONFIG_UNIX)
5003         ctx->ring_sock->file = file;
5004         ctx->ring_sock->sk->sk_user_data = ctx;
5005 #endif
5006         fd_install(ret, file);
5007         return ret;
5008 err:
5009 #if defined(CONFIG_UNIX)
5010         sock_release(ctx->ring_sock);
5011         ctx->ring_sock = NULL;
5012 #endif
5013         return ret;
5014 }
5015
5016 static int io_uring_create(unsigned entries, struct io_uring_params *p)
5017 {
5018         struct user_struct *user = NULL;
5019         struct io_ring_ctx *ctx;
5020         bool account_mem;
5021         int ret;
5022
5023         if (!entries || entries > IORING_MAX_ENTRIES)
5024                 return -EINVAL;
5025
5026         /*
5027          * Use twice as many entries for the CQ ring. It's possible for the
5028          * application to drive a higher depth than the size of the SQ ring,
5029          * since the sqes are only used at submission time. This allows for
5030          * some flexibility in overcommitting a bit. If the application has
5031          * set IORING_SETUP_CQSIZE, it will have passed in the desired number
5032          * of CQ ring entries manually.
5033          */
5034         p->sq_entries = roundup_pow_of_two(entries);
5035         if (p->flags & IORING_SETUP_CQSIZE) {
5036                 /*
5037                  * If IORING_SETUP_CQSIZE is set, we do the same roundup
5038                  * to a power-of-two, if it isn't already. We do NOT impose
5039                  * any cq vs sq ring sizing.
5040                  */
5041                 if (p->cq_entries < p->sq_entries || p->cq_entries > IORING_MAX_CQ_ENTRIES)
5042                         return -EINVAL;
5043                 p->cq_entries = roundup_pow_of_two(p->cq_entries);
5044         } else {
5045                 p->cq_entries = 2 * p->sq_entries;
5046         }
5047
5048         user = get_uid(current_user());
5049         account_mem = !capable(CAP_IPC_LOCK);
5050
5051         if (account_mem) {
5052                 ret = io_account_mem(user,
5053                                 ring_pages(p->sq_entries, p->cq_entries));
5054                 if (ret) {
5055                         free_uid(user);
5056                         return ret;
5057                 }
5058         }
5059
5060         ctx = io_ring_ctx_alloc(p);
5061         if (!ctx) {
5062                 if (account_mem)
5063                         io_unaccount_mem(user, ring_pages(p->sq_entries,
5064                                                                 p->cq_entries));
5065                 free_uid(user);
5066                 return -ENOMEM;
5067         }
5068         ctx->compat = in_compat_syscall();
5069         ctx->account_mem = account_mem;
5070         ctx->user = user;
5071         ctx->creds = get_current_cred();
5072
5073         ret = io_allocate_scq_urings(ctx, p);
5074         if (ret)
5075                 goto err;
5076
5077         ret = io_sq_offload_start(ctx, p);
5078         if (ret)
5079                 goto err;
5080
5081         memset(&p->sq_off, 0, sizeof(p->sq_off));
5082         p->sq_off.head = offsetof(struct io_rings, sq.head);
5083         p->sq_off.tail = offsetof(struct io_rings, sq.tail);
5084         p->sq_off.ring_mask = offsetof(struct io_rings, sq_ring_mask);
5085         p->sq_off.ring_entries = offsetof(struct io_rings, sq_ring_entries);
5086         p->sq_off.flags = offsetof(struct io_rings, sq_flags);
5087         p->sq_off.dropped = offsetof(struct io_rings, sq_dropped);
5088         p->sq_off.array = (char *)ctx->sq_array - (char *)ctx->rings;
5089
5090         memset(&p->cq_off, 0, sizeof(p->cq_off));
5091         p->cq_off.head = offsetof(struct io_rings, cq.head);
5092         p->cq_off.tail = offsetof(struct io_rings, cq.tail);
5093         p->cq_off.ring_mask = offsetof(struct io_rings, cq_ring_mask);
5094         p->cq_off.ring_entries = offsetof(struct io_rings, cq_ring_entries);
5095         p->cq_off.overflow = offsetof(struct io_rings, cq_overflow);
5096         p->cq_off.cqes = offsetof(struct io_rings, cqes);
5097
5098         /*
5099          * Install ring fd as the very last thing, so we don't risk someone
5100          * having closed it before we finish setup
5101          */
5102         ret = io_uring_get_fd(ctx);
5103         if (ret < 0)
5104                 goto err;
5105
5106         p->features = IORING_FEAT_SINGLE_MMAP | IORING_FEAT_NODROP |
5107                         IORING_FEAT_SUBMIT_STABLE;
5108         trace_io_uring_create(ret, ctx, p->sq_entries, p->cq_entries, p->flags);
5109         return ret;
5110 err:
5111         io_ring_ctx_wait_and_kill(ctx);
5112         return ret;
5113 }
5114
5115 /*
5116  * Sets up an aio uring context, and returns the fd. Applications asks for a
5117  * ring size, we return the actual sq/cq ring sizes (among other things) in the
5118  * params structure passed in.
5119  */
5120 static long io_uring_setup(u32 entries, struct io_uring_params __user *params)
5121 {
5122         struct io_uring_params p;
5123         long ret;
5124         int i;
5125
5126         if (copy_from_user(&p, params, sizeof(p)))
5127                 return -EFAULT;
5128         for (i = 0; i < ARRAY_SIZE(p.resv); i++) {
5129                 if (p.resv[i])
5130                         return -EINVAL;
5131         }
5132
5133         if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |
5134                         IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE))
5135                 return -EINVAL;
5136
5137         ret = io_uring_create(entries, &p);
5138         if (ret < 0)
5139                 return ret;
5140
5141         if (copy_to_user(params, &p, sizeof(p)))
5142                 return -EFAULT;
5143
5144         return ret;
5145 }
5146
5147 SYSCALL_DEFINE2(io_uring_setup, u32, entries,
5148                 struct io_uring_params __user *, params)
5149 {
5150         return io_uring_setup(entries, params);
5151 }
5152
5153 static int __io_uring_register(struct io_ring_ctx *ctx, unsigned opcode,
5154                                void __user *arg, unsigned nr_args)
5155         __releases(ctx->uring_lock)
5156         __acquires(ctx->uring_lock)
5157 {
5158         int ret;
5159
5160         /*
5161          * We're inside the ring mutex, if the ref is already dying, then
5162          * someone else killed the ctx or is already going through
5163          * io_uring_register().
5164          */
5165         if (percpu_ref_is_dying(&ctx->refs))
5166                 return -ENXIO;
5167
5168         percpu_ref_kill(&ctx->refs);
5169
5170         /*
5171          * Drop uring mutex before waiting for references to exit. If another
5172          * thread is currently inside io_uring_enter() it might need to grab
5173          * the uring_lock to make progress. If we hold it here across the drain
5174          * wait, then we can deadlock. It's safe to drop the mutex here, since
5175          * no new references will come in after we've killed the percpu ref.
5176          */
5177         mutex_unlock(&ctx->uring_lock);
5178         wait_for_completion(&ctx->completions[0]);
5179         mutex_lock(&ctx->uring_lock);
5180
5181         switch (opcode) {
5182         case IORING_REGISTER_BUFFERS:
5183                 ret = io_sqe_buffer_register(ctx, arg, nr_args);
5184                 break;
5185         case IORING_UNREGISTER_BUFFERS:
5186                 ret = -EINVAL;
5187                 if (arg || nr_args)
5188                         break;
5189                 ret = io_sqe_buffer_unregister(ctx);
5190                 break;
5191         case IORING_REGISTER_FILES:
5192                 ret = io_sqe_files_register(ctx, arg, nr_args);
5193                 break;
5194         case IORING_UNREGISTER_FILES:
5195                 ret = -EINVAL;
5196                 if (arg || nr_args)
5197                         break;
5198                 ret = io_sqe_files_unregister(ctx);
5199                 break;
5200         case IORING_REGISTER_FILES_UPDATE:
5201                 ret = io_sqe_files_update(ctx, arg, nr_args);
5202                 break;
5203         case IORING_REGISTER_EVENTFD:
5204                 ret = -EINVAL;
5205                 if (nr_args != 1)
5206                         break;
5207                 ret = io_eventfd_register(ctx, arg);
5208                 break;
5209         case IORING_UNREGISTER_EVENTFD:
5210                 ret = -EINVAL;
5211                 if (arg || nr_args)
5212                         break;
5213                 ret = io_eventfd_unregister(ctx);
5214                 break;
5215         default:
5216                 ret = -EINVAL;
5217                 break;
5218         }
5219
5220         /* bring the ctx back to life */
5221         reinit_completion(&ctx->completions[0]);
5222         percpu_ref_reinit(&ctx->refs);
5223         return ret;
5224 }
5225
5226 SYSCALL_DEFINE4(io_uring_register, unsigned int, fd, unsigned int, opcode,
5227                 void __user *, arg, unsigned int, nr_args)
5228 {
5229         struct io_ring_ctx *ctx;
5230         long ret = -EBADF;
5231         struct fd f;
5232
5233         f = fdget(fd);
5234         if (!f.file)
5235                 return -EBADF;
5236
5237         ret = -EOPNOTSUPP;
5238         if (f.file->f_op != &io_uring_fops)
5239                 goto out_fput;
5240
5241         ctx = f.file->private_data;
5242
5243         mutex_lock(&ctx->uring_lock);
5244         ret = __io_uring_register(ctx, opcode, arg, nr_args);
5245         mutex_unlock(&ctx->uring_lock);
5246         trace_io_uring_register(ctx, opcode, ctx->nr_user_files, ctx->nr_user_bufs,
5247                                                         ctx->cq_ev_fd != NULL, ret);
5248 out_fput:
5249         fdput(f);
5250         return ret;
5251 }
5252
5253 static int __init io_uring_init(void)
5254 {
5255         req_cachep = KMEM_CACHE(io_kiocb, SLAB_HWCACHE_ALIGN | SLAB_PANIC);
5256         return 0;
5257 };
5258 __initcall(io_uring_init);