Xpath la gi

Giới thiệu

Trước khi đi vào phần này chúng ta hãy xem lại một ví dụ về tài liệu XML:

xml version="1.0"?>
<Order OrderNo="1047">
  <OrderDate>2002-03-26OrderDate>
  <Customer>John CostelloCustomer>
  <Item>
    <Product ProductID="1" UnitPrice="70">ChairProduct>
    <Quantity>6Quantity>
  Item>
  <Item>
    <Product ProductID="2" UnitPrice="250">DeskProduct>
    <Quantity>1Quantity>
  Item>
Order>

Với ví dụ này khi chúng ta mở với trình duyệt IE chúng ta sẽ được kết quả sau:

Xpath la gi

Như vậy chúng ta thấy trên trình duyệt sẽ hiển thị y nguyên tài liệu gốc. Vậy làm cách nào để chúng ta có thể đi lại trên các phần tử của tài liệu XML để trích ra những dữ liệu mà chúng ta cần thiết.

Để đáp ứng điều này người ta thiết kế ra một ngôn ngữ XPath. XPath có một vai trò quan trọng trong việc trao đổi dữ liệu giữa các máy tính hay giữa các chương trình ứng dụng vì nó cho chúng ta sàng lọc các dữ liệu mà ta mong muốn.

XPath xem XML như một cây, với ví dụ trên sẽ được biểu diễn dưới dạng cây sau:

Xpath la gi

Bây giờ chúng ta hãy học cách đi qua các nút trong tài liệu XML.

Đường dẫn tuyệt đối

Nếu đường dẫn XPath bắt đầu bởi dấu / thì có nghĩa đây là một đường dẫn tuyệt đối bắt đầu từ phần tử gốc.

Trong hình cấu trúc cây ở trên, bây giờ chúng ta muốn chọn nút Order ta viết như sau:

Cú pháp nguyên: /child::Order

Cú pháp tắt: /Order

Đi ra nhánh con Custumer bằng XPath như sau:

Cú pháp nguyên: /child::Order/child::Custumer

Cú pháp tắt: /Order/Custumer

Trong trường hợp muốn đi đến thuộc tính của nút thì chúng ta cần phải chỉ rõ từ khóa Attribute trong cú pháp nguyên hoặc @ trong cú pháp tắt.

Để lấy thuộc tính OrderNo của nút Order ta dùng cú pháp XPath như sau:

Cú pháp nguyên: /child::Order/Attribute::OrderNo

Cú pháp tắt: /Order/@OrderNo

Đường dẫn tương đối

Khi chúng ta muốn trích một phần tử nào đó mà chúng ta chỉ biết tên của phần tử này chứ chúng ta không biết là phần tử này nằm ở vị trí nào thì chúng ta có thể dùng đường dẫn tương đối để làm điểu này. Chúng ta dùng dấu // để chỉ cho trình phân tích biết đây là đường dẫn tương đối.

Ví dụ, để trích các phần tử có tên là Product chúng ta viết như sau:

Cú pháp nguyên: //child::Product

Cú pháp viết tắt: //Product

Khi chúng ta viết như thế này thì khi đi qua trình phân tích sẽ truy tìm đến các phần tử có tên là Product.

Chọn các phần tử bằng ký tự đại diện

Để chọn tất cả các phần tử con của một phần tử nào đó chúng ta dùng ký tự đại diện *.

Ví dụ, để lấy tất cả các phần tử con của phần tử Order ta viết như sau:

Cú pháp nguyên: /child::Order/child::*

Cú pháp tắt: /Order/*

Chọn các phần tử theo điều kiện

Để lấy các phần tử theo một điều kiện nào đó chúng ta dùng dấu ngoặc vuông([ ]).

Ví dụ, để lấy mọi phần tử Product có thuộc tính UnitPrice > 70 ta viết như sau:

Cú pháp nguyên:

//child::Product[Attribute::UnitPrice>70]

Cú pháp tắt:

//Product[@UnitPrice>70]

Ví dụ, để lấy những phần tử Item có phần tử con là Product và có thuộc tính ProductID=1 chúng ta viết như sau:

Cú pháp nguyên:

//child::Item[child::Product/Attribute::ProductID=1]

Cú pháp tắt:

//Item[Product/@ProductID=1]

Một số hàm thường dùng

Tên hàm

Ý nghĩa

Ví dụ

count()

Hàm lấy tổng số nút con của một

//Item[count(*)=2]

Chọn tất cả các phần tử Item có số phần tử con là 2

name()

Lấy tên của phần tử

/Order/*[name()='Item']

Chọn tất cả các phần tử con của Order có tên là Item

text() Lấy dữ liệu của phần tử

/Order/Item/Product[text()='Desk']

Chọn phần tử Product của Item có chứa dữ liệu là Desk

not()

Hàm phủ định

//Item/*[not(@*)]

Chọn tất cả các phần tử con của Item không chứa thuộc tính nào

normalize-space(str)

Hàm bỏ khoảng trắng

//Item/*[normalize-space(@ProductID)=’abc’]

Chọn tất cả các phần tử con của Item có thuộc tính ProductID=abc (không  phân biệt khoảng trắng)

starts-with(str,substr)

Hàm  kiểm  tra  xem  chuỗi  str  có chứa chuỗi substr (tính từ vị trí đầu tiên) hay không

//item/*[starts-with(name(),’P’)]

Chọn tất cả các phần tử con của Item có tên bắt đầu bởi ký tự P

contains(str,substr)

Kiểm  tra  một  chuỗi  str  có  chứa chuổi con substr hay không

//item/*[contains(name(),’u’)]

Chọn tất cả các phần tử con của phần tử Item mà tên của các phần tử con này có chứ ký tự u

string-length(str) Hàm lấy chiều dài của 1 chuỗi

//Item/*[string-length(name())=5]

Chọn tất cả các phần tử con của Item mà độ dài tên của các phần tử con này là 5

position() Cho biết vị trí hiện tại của phần tử

//Item[position()=5]

Chọn phần tử Item có vị trí là 5

floor() Lấy giá trị nhỏ nhất gần với giá trị chỉ định  
ceiling() Lấy giá trị lớn nhất gần với giá trị chỉ định  
last() Vị trí nút cuối cùng

//Item[last()]

Chọn phần tử Item cuối cùng

Một số toán tử thường dùng