เดี๋ยวนะ นี่มันวิดีโอเกมหรือลูกแก้วทำนาย?
เคยดูตัวละครที่ไม่ใช่ผู้เล่นเดินชนกำแพงแล้วคิดว่า "ใช่เลย นั่นฉันในวันจันทร์" ไหม? วิดีโอและเอนจินเกมแบบดั้งเดิมนั้นยอดเยี่ยมในการสร้างพิกเซลให้ดูเหมือนโลก แต่ส่วนใหญ่ก็ยังเป็นหุ่นเชิดที่ถูกชักใยอยู่ดี โมเดลโลกของ Odyssey ต้องการตัดเชือกเหล่านั้น มันไม่ได้แค่เรนเดอร์สิ่งที่อยู่บนหน้าจอ แต่มันพยายามที่จะเข้าใจว่าอะไรจะเกิดขึ้นต่อไป คิดถึงมันว่าไม่ใช่แค่ฉากบนเวที แต่เป็นเหมือนสมองในกล่อง
ถ้าคุณเคยเห็นการสาธิตที่ AI มองฉากและทำนายว่าจะเกิดอะไรขึ้น เช่น ลูกบอลกลิ้งไปข้างหลังโซฟาแล้วโผล่ออกมาอีกด้าน Odyssey กำลังเล่นอยู่ใน sandbox นั้น และมันกำลังทำในแบบที่ทำให้ Unreal และ Unity รู้สึก... เอ่อ ค่อนข้างธรรมดา ไม่ได้ไร้ประโยชน์ แค่เหมือนเครื่องคิดเลขเมื่อเทียบกับสเปรดชีต มีประโยชน์มาก จนกระทั่งคุณต้องการให้โมเดลคิด
มาดูกันว่าโมเดลโลกของ Odyssey แตกต่างจากวิดีโอและเอนจินเกมแบบดั้งเดิมอย่างไร โดยไม่ต้องมีปริญญาเอก คู่มือ 500 หน้า หรือคอนโทรลเลอร์ที่ต้องใช้นิ้วโป้งหกนิ้วในการใช้งาน
ประเด็นสำคัญ: เอนจินวิดีโอเรนเดอร์ แต่ Odyssey จำลองความเป็นจริง
- เอนจินแบบดั้งเดิม: ระบบดีเทอร์มินิสติก (หรือสุ่มเทียม) ที่อิงตามกฎ ซึ่งออกแบบมาเพื่อวาดเฟรม จำลองฟิสิกส์ และตอบสนองต่ออินพุต มันคือพู่กันแบบเรียลไทม์ที่มีกฎเกณฑ์
- โมเดลโลกของ Odyssey: เอนจินการเรียนรู้และการคาดการณ์ มันไม่ได้แค่แสดงภาพฉาก แต่มันประเมินสถานะที่ซ่อนอยู่ของโลกและคาดการณ์ถึงอนาคตที่น่าจะเป็นไปได้ มันไม่ใช่แค่ "สิ่งที่คุณเห็น" แต่มันคือ "สิ่งที่จะเกิดขึ้นต่อไป"
ความแตกต่างที่สำคัญ: เอนจินจำลองสิ่งที่คุณบอกให้จำลอง แต่ Odyssey อนุมานว่าโลกคืออะไรและอาจเป็นอะไร การก้าวกระโดดจากสคริปต์ไปสู่ความเข้าใจสถานะ คือเหตุผลว่าทำไมสิ่งนี้ถึงมีความสำคัญ
คิดถึงผู้กำกับ: เอนจินเกมทำสตอรี่บอร์ด แต่ Odyssey ด้นสด
- ใน Unity หรือ Unreal คุณคือผู้กำกับที่กำหนดทุกบรรทัด: แสง ฟิสิกส์ เส้นทางการเดินของ AI ฮิตบ็อกซ์ เอนจินจะดำเนินการตามแผนของคุณอย่างสมบูรณ์แบบ (จนกว่าจะไม่เป็นเช่นนั้น สวัสดีข้อผิดพลาดในการชน)
- โมเดลโลกของ Odyssey คือนักแสดงที่สามารถด้นสดได้ มอบฉากให้มัน แล้วมันจะอนุมานเจตนา การบดบัง และพลวัตที่ไม่สามารถสังเกตได้ มันเรียนรู้รูปแบบจากวิดีโอ ไม่ใช่พฤติกรรมที่เขียนโค้ดไว้ตายตัวจากคุณ เป็นหุ่นเชิดน้อยลง มีสามัญสำนึกในการคาดการณ์มากขึ้น
เปรียบเทียบ: เอนจินแบบดั้งเดิมเหมือน Google Maps ในโหมดนำทาง ที่มีการเขียนสคริปต์แบบเลี้ยวต่อเลี้ยวอย่างชัดเจน Odyssey เหมือนเพื่อนที่ขับรถเส้นทางนี้มาเป็นพันครั้งและรู้วิธีลัดเมื่อทางหลวงปิด คุณไม่ได้ตั้งโปรแกรมมัน แต่มันอนุมานมัน
อินพุต: สินทรัพย์และสคริปต์ เทียบกับ ประสบการณ์ดิบ
- เอนจินแบบดั้งเดิมรับเมช พื้นผิว เชเดอร์ แอนิเมชั่น และสคริปต์ คุณสร้างโลกด้วยมือ
- Odyssey รับวิดีโอ วิถีการเคลื่อนที่ และข้อมูลหลายรูปแบบ มันไม่ได้แค่เลียนแบบเฟรม แต่มันสร้างการแสดงผลแฝง ซึ่งเป็นสมองทางคณิตศาสตร์ที่บีบอัด ซึ่งจับภาพว่าโลกมีแนวโน้มที่จะประพฤติตนอย่างไร
ผลกระทบ: เอนจินต้องการศิลปินและนักออกแบบเพื่อสร้างทุกก้อนอิฐ แต่ Odyssey พยายามเรียนรู้แผนผังเมืองทั้งหมดโดยการดูภาพ time-lapse มันเก็บเกี่ยวพลวัตภายใน เช่น โมเมนตัม การบดบัง และความเป็นเหตุเป็นผล โดยที่คุณไม่ต้องจัดการทุกตัวแปร
ฟิสิกส์: กฎที่กำหนดไว้ เทียบกับ พลวัตที่เรียนรู้
- เอนจิน = ฟิสิกส์ที่ชัดเจน แรงโน้มถ่วงคือ 9.81 m/s² เว้นแต่คุณจะปรับแต่งมัน การชนกันจะแข็งทื่อ เว้นแต่คุณจะทำให้มันเป็นแบบ soft-body
- Odyssey = ฟิสิกส์ที่เรียนรู้ มันประเมินว่าสิ่งต่างๆ มักจะเคลื่อนที่อย่างไร เมื่อไหร่ที่มันลื่น ไถล เด้ง หรือแค่หายไปข้างหลังโซฟาเป็นเวลาสามเฟรม
สิ่งที่ควรทราบคือ ฟิสิกส์ที่เรียนรู้สามารถนำไปใช้กับกรณีที่ยุ่งเหยิงในโลกแห่งความเป็นจริงได้ ฟิสิกส์ของเกมนั้นไร้ที่ติ จนกระทั่ง ragdoll จามและพุ่งขึ้นสู่วงโคจร Odyssey เน้นที่ความสมเหตุสมผล ไม่ใช่ความสมบูรณ์แบบ
ความไม่แน่นอน: เกมหลีกเลี่ยงมัน แต่ Odyssey เติมเต็มมัน
เอนจินเกมชอบความแน่นอน ถ้าแสงอยู่ที่นี่ เงาจะอยู่ที่นั่น ถ้าโค้ดบอกว่า “เดิน” ตัวละครก็จะเดิน Odyssey ยอมรับความน่าจะเป็น มันติดตามความเป็นไปได้หลายอย่างในอนาคตและกำหนดความเป็นไปได้ นั่นคือเหตุผลว่าทำไมมันถึงทรงพลังสำหรับการคาดการณ์ เส้นทางของหุ่นยนต์ การเคลื่อนกล้อง การจราจร มันไม่ได้ทำให้ความเป็นจริงพังทลายลงเหลือแค่สคริปต์เดียว แต่มันยังคงรักษาคำว่า “อาจจะ” ให้มีชีวิตอยู่
ถ้าคุณกำลังสร้างผู้ช่วยสำหรับโดรน รถยนต์ หรือหุ่นยนต์ หรือแม้แต่เครื่องมือตัดต่อวิดีโอที่คาดเดาการตัดครั้งต่อไปของคุณ นั่นคือสิ่งที่สำคัญ โลกคือก็อบลินแห่งความโกลาหล Odyssey จำลองก็อบลิน
การควบคุม: คำสั่งที่จำเป็น เทียบกับ เจตนาในระดับสูง
- เอนจินแบบดั้งเดิม: คุณกด A ตัวละครกระโดด คุณเรียก API เชเดอร์คอมไพล์ คุณได้รับการควบคุมโดยตรง
- Odyssey: คุณตั้งเป้าหมาย เช่น "ไปให้ถึงประตู" และมันจะทำนายลำดับที่จะบรรลุเป้าหมายภายใต้ฟิสิกส์และบริบท การควบคุมน้อยลง การบรรยายสรุปภารกิจมากขึ้น
นี่คือเหตุผลที่ผู้คนตื่นเต้นกับโมเดลโลกสำหรับตัวแทนอัตโนมัติ มันไม่ใช่เกี่ยวกับการสร้างแอนิเมชั่น Mario แต่เป็นการบอกระบบว่า "อย่าชนรถเข็นเด็ก" และเชื่อมั่นในแผนของมัน กล้าหาญ ฉันรู้
การแสดงผล: เรขาคณิตเป็นอันดับแรก เทียบกับ แฝงเป็นอันดับแรก
เอนจินแบบดั้งเดิมสร้างโลกจากเรขาคณิตและวัสดุ Odyssey สร้างโลกในพื้นที่แฝง ซึ่งเป็นซุปเวกเตอร์ที่บีบอัด ซึ่งวัตถุ การเคลื่อนไหว และเจตนาเป็น “คุณสมบัติ” ไม่ใช่รูปสามเหลี่ยม
ประโยชน์ที่น่าประหลาดใจ: พื้นที่แฝงนั้นยอดเยี่ยมสำหรับการเติมข้อมูลที่ขาดหายไป ถ้าคนปั่นจักรยานหลบอยู่ข้างหลังรถบรรทุก เอนจินจะไม่รู้ว่ามีอะไรอยู่ข้างหลังรถบรรทุก เว้นแต่คุณจะเป็นคนสร้างมัน Odyssey บอกว่า "อาจจะยังมีคนปั่นจักรยานอยู่" และวางแผนตามนั้น
นอกจากนี้ โมเดลที่คล้ายกับ odyssey สามารถสังเคราะห์วิดีโอที่น่าเชื่อถือได้โดยไม่ต้องมีสินทรัพย์ที่ชัดเจน มันเป็นการเรนเดอร์โดยความเข้าใจ ไม่ใช่การเรนเดอร์โดยรูปหลายเหลี่ยม
ความเที่ยงตรงสูง เทียบกับ การมองการณ์ไกล: เอนจินชนะความสวยงาม Odyssey ชนะการทำนาย
- เอนจินทำแสงสะท้อนที่สมบูรณ์แบบในทุกเฟรม แอ่งน้ำขนาด 4K ที่คุณจะไม่สังเกตเห็น
- Odyssey ทำ "จะเกิดอะไรขึ้นถ้า..." ได้อย่างยอดเยี่ยม คุณได้รับการมองการณ์ไกล: การตรวจจับภัยคุกคาม การคาดการณ์วิถีการเคลื่อนที่ เฟรมถัดไปที่สมเหตุสมผล และสิ่งที่ตรงกันข้ามกับความเป็นจริง
มันไม่ได้ดีกว่าหรือแย่กว่า มันแตกต่างกัน ถ้าคุณกำลังสร้าง The Last of Us ภาคต่อไป ให้ใช้ Unreal ต่อไป ถ้าคุณกำลังสร้างหุ่นยนต์ที่ไม่ต้องเตะถังขยะเข้าไปในการจราจร โมเดลโลกของ Odyssey คือเพื่อนที่ดีที่สุดคนใหม่ของคุณ
การฝึกอบรม เทียบกับ การประพันธ์: หิวกระหายข้อมูล เทียบกับ หิวกระหายแรงงาน
- เอนจินใช้แรงงาน: การออกแบบด่าน การริก การเขียนสคริปต์ คุณจัดส่งเนื้อหา
- Odyssey ใช้ข้อมูล: วิดีโอ บันทึกข้อมูล ฟีดเซ็นเซอร์ คุณจัดส่งประสบการณ์
ใช่ นั่นหมายถึง GPU จำนวนมาก นอกจากนี้ การกำกับดูแลข้อมูล ความเป็นส่วนตัว การลดอคติ ซึ่งเป็นบุฟเฟต์ AI ที่ทันสมัยทั้งหมด แต่มันพลิกสมการ: กฎเกณฑ์ที่ต้องรักษาน้อยลง การสรุปผลมากขึ้นเมื่อสภาพแวดล้อมเปลี่ยนแปลง
การแก้ไขข้อผิดพลาด: ตัวเลื่อนนับล้าน เทียบกับ ตัวอย่างนับล้าน
- ข้อผิดพลาดของเอนจิน: ปรับแต่ง collider เพิ่ม if-statement เรียกมันว่าจบ
- ข้อผิดพลาดของโมเดลโลก: รวบรวมข้อมูลเพิ่มเติม ปรับฟังก์ชัน loss ตัด outliers เพิ่มข้อจำกัด คุณกำลังแก้ไขหน่วยความจำของมัน ไม่ใช่โค้ดของมัน
ข้อดี? เมื่อมันเรียนรู้ มันจะสรุปผล การแก้ไขการชนกันครั้งเดียวในเอนจินไม่ได้ทำให้ทุกประตูฉลาดขึ้น การฝึกอบรมโมเดลโลกบนประตูอาจจะทำได้
ที่ที่ Odyssey เปล่งประกาย: ความเป็นจริงที่ยุ่งเหยิงและไม่ได้เขียนสคริปต์ไว้
- หุ่นยนต์: การวางแผนเส้นทางรอบๆ มนุษย์ สัตว์เลี้ยง และ Roomba ที่เกเร
- การขับขี่อัตโนมัติ: การทำนายว่ารถกระบะคันนั้นอาจทำอะไรเมื่อไฟเขียว (สปอยเลอร์: อะไรก็ได้)
- AR/VR: การรักษาวัตถุเสมือนให้มั่นคงและน่าเชื่อถือในขณะที่คุณหมุนตัวไปรอบๆ ห้องนั่งเล่นเหมือนทำคอนแทคเลนส์หลุด
- เครื่องมือวิดีโอ: การ inpainting การบดบัง การทำนายเฟรมถัดไป การทำให้ภาพมั่นคง การสังเคราะห์ B-roll จากบริบท
- ตัวแทน: การปล่อยให้ซอฟต์แวร์ตัดสินใจว่า "อะไรต่อไป" จากเป้าหมายระดับสูง ไม่ใช่มาโคร 300 ขั้นตอน
เอนจินแบบดั้งเดิมมีความโดดเด่นเมื่อคุณควบคุมทุกอย่าง: ไฟสตูดิโอ เหตุการณ์ที่เขียนสคริปต์ไว้ ผู้ชมที่จะไม่แตะต้องอะไรเลย Odyssey เปล่งประกายเมื่อผู้ชมส่งเสียงดัง ลุกขึ้นยืน และทำน้ำอัดลมบนเวทีหก และการแสดงต้องดำเนินต่อไป
ภายใต้ฮูด: ทัวร์เนิร์ดสั้นๆ
- สถานะโลกแฝง: การแสดงผลที่บีบอัดของวัตถุ การเคลื่อนไหว และความสัมพันธ์
- โมเดลพลวัต: ทำนายสถานะแฝงถัดไปที่กำหนดสถานะปัจจุบันและการกระทำ
- โมเดลการสังเกต: เปลี่ยนสถานะแฝงเป็นเฟรมที่ทำนายหรือการอ่านเซ็นเซอร์
- Planner/Policy: ค้นหาการกระทำที่เป็นไปได้เพื่อให้บรรลุเป้าหมาย โดยพิจารณาจากความไม่แน่นอน
เอนจินแบบดั้งเดิมมีสแต็กของตัวเอง ซึ่งก็คือ renderers ฟิสิกส์ สคริปต์ AI แต่พวกเขาไม่ได้เรียนรู้พลวัตจากประสบการณ์ดิบ Odyssey ทำ
ประสิทธิภาพ: เรียลไทม์แตกต่างกันในดินแดนโมเดล
เอนจินได้รับการปรับให้เหมาะสมกับฮาร์ดแวร์สำหรับการแรสเตอร์ไรเซชันและฟิสิกส์ โมเดลโลกพึ่งพาตัวเร่งความเร็วสำหรับการอนุมานแบบนิวรัล เรียลไทม์เป็นไปได้ แต่คุณต้องแลกเปลี่ยนความเที่ยงตรงของภาพเพื่อพลังในการคาดการณ์ นั่นหมายความว่าบางครั้งมันดูเงางามน้อยกว่า แต่ทำตัวฉลาดกว่าบนท้องถนน คิดถึง: รังสีเทพเจ้าน้อยกว่า "อย่าโดนรถบัสชน"
Guardrails: ทำไมภาพหลอนถึงมีความสำคัญมากกว่า motion blur
ในเกม ความผิดพลาดคือ TikTok ในโลกแห่งความเป็นจริง ความผิดพลาดคือการฟ้องร้อง ดังนั้นระบบสไตล์ Odyssey จึงต้องการ:
- การปรับเทียบกับ ground truth (เซ็นเซอร์ แผนที่)
- การประมาณค่าความไม่แน่นอน (ความมั่นใจในอนาคต)
- ข้อจำกัดด้านความปลอดภัย (กฎ "อย่าบังอาจ" ที่เข้มงวด)
- การตรวจสอบ human-in-the-loop สำหรับการโทรที่มีเดิมพันสูง
เอนจินแบบดั้งเดิมจะไม่จินตนาการถึงเลนใหม่ World models อาจจะ Guardrails เป็นส่วนหนึ่งของงาน
The crossover episode: พวกเขาสามารถทำงานร่วมกันได้หรือไม่?
แน่นอน นึกภาพไปป์ไลน์นี้:
- สร้างต้นแบบพฤติกรรมในโมเดลโลกโดยใช้วิดีโอที่บันทึกไว้
- ตรวจสอบและปรับแต่งใน sandbox ของเอนจินเกมด้วยตัวแปรที่ควบคุมได้
- วนกลับ เอนจินเผยให้เห็น edge cases โมเดล retrain
เอนจินให้การควบคุมและความสามารถในการทดสอบแก่คุณ World models ให้การสรุปผลแก่คุณ มันคือเนยถั่วกับเยลลี่ ลบแป้นพิมพ์เหนียวๆ ออกไป
ค่าใช้จ่าย ความซับซ้อน และ "ทำไมต้องตอนนี้"
- GPU เร็วขึ้น สถาปัตยกรรมโมเดลฉลาดขึ้น และมีวิดีโอมากกว่ารูปถ่ายแมว (โอเค เกือบ)
- นักพัฒนากำลังชนเพดานการเขียนสคริปต์ การสร้างทุกสถานการณ์ด้วยมือไม่ได้ปรับขนาดเมื่อแอปของคุณพบกับโลกแห่งความเป็นจริง
- ผู้ใช้ต้องการผู้ช่วยที่ตอบสนอง ไม่ใช่แค่เรนเดอร์ นั่นคือการเปลี่ยนแปลง
มันถูกหรือไม่? ไม่ แต่การสร้างไปป์ไลน์คัตซีนของคุณเองในปี 2012 ก็ไม่ใช่เช่นกัน ความแตกต่าง: โมเดลตัดจำหน่ายการเรียนรู้ในกรณีการใช้งาน เมื่อมันรู้ว่า "ประตูทำงานอย่างไร" ทุกประตูก็ได้รับประโยชน์
สถานการณ์ภาคปฏิบัติ: อะไรเปลี่ยนไปสำหรับคุณ
- คุณเป็นนักพัฒนาหุ่นยนต์: แทนที่จะเขียน if-thens สำหรับบันได เทียบกับ ทางลาด คุณฝึกฝนจากวิดีโอจำนวนมากของบันไดและทางลาด Odyssey ทำนายความสามารถในการสัญจรและวางแผนตามนั้น
- คุณกำลังสร้าง AR: แทนที่จะปรับแต่งตัวติดตามคุณสมบัติสำหรับทุกพื้นผิวของห้องนั่งเล่น โมเดลจะติดตามวัตถุผ่านการบดบังและเดาการปรากฏตัวใหม่ โคมไฟเสมือนอยู่กับที่
- คุณเป็นผู้ผลิตเครื่องมือวิดีโอ: คุณเสนอคำแนะนำ "ทำนายช็อตถัดไป" ไม่ใช่แค่การเปลี่ยนภาพ โมเดลรู้ว่านี่คือวิดีโอทำอาหารและอาจต้องมีการโคลสอัพของหัวหอมต่อไป
- คุณอยู่ใน sim: ใช้เอนจินเกมเพื่อ stress-test อันตรายที่หายาก ใช้ Odyssey เพื่อเรียนรู้ว่ามนุษย์ตอบสนองอย่างไรจริงๆ เมื่อรวมกัน คุณจะได้รับความปลอดภัย + ความสมจริง
การเปรียบเทียบแบบรวดเร็ว: Odyssey เทียบกับ เอนจินแบบดั้งเดิม
- เป้าหมาย: การมองการณ์ไกล เทียบกับ ความเที่ยงตรงสูง
- อินพุต: ประสบการณ์ เทียบกับ สินทรัพย์
- การควบคุม: เจตนา เทียบกับ คำสั่งที่จำเป็น
- ฟิสิกส์: เรียนรู้ เทียบกับ เขียนโค้ด
- โหมดความล้มเหลว: ภาพหลอน เทียบกับ clipping
- จุดแข็ง: การสรุปผล เทียบกับ ความแม่นยำของผู้ประพันธ์
ถ้าคุณกำลังทำภาพคุณภาพระดับภาพยนตร์ เอนจินคือเพื่อนตายของคุณ ถ้าคุณต้องการ "จะเกิดอะไรขึ้นต่อไป" โมเดลโลกของ Odyssey คือผู้ใหญ่ในงานปาร์ตี้
การตรวจสอบความเป็นจริงของเครื่องมือ: สิ่งที่คุณจะต้องมี
- Data pipelines สำหรับการ ingestion และ labeling วิดีโอ/เซ็นเซอร์ (หรือการกำกับดูแลแบบอ่อน)
- Training infrastructure ซึ่งก็คือ cloud GPUs หรือ on-prem clusters พร้อมด้วย checkpointing และ eval harnesses
- A serving layer ที่สามารถทำการอนุมานได้อย่างรวดเร็ว โดยที่ดีที่สุดคือมีการ batching และ quantization
- Observability: ตรวจสอบ drift กรณีความล้มเหลว และ uncertainty spikes
- A fallback plan: ค่าเริ่มต้นที่ปลอดภัยเมื่อความมั่นใจลดลง
สิ่งนี้มีเสน่ห์หรือไม่? ไม่โดยเฉพาะอย่างยิ่ง แต่นั่นคือราคาของการสอนให้แอปของคุณคิดแทนที่จะจำ
Heads up: ที่ที่ Sider.AI เหมาะสมกับภาพนี้
สิ่งที่ควรทราบ: ถ้าคุณกำลังปวดหัวกับการพยายามเปรียบเทียบแนวทาง Sider.AI สามารถช่วยคุณ triage คำถาม "ฉันควรสร้างอะไร" ได้ ป้อน use case ของคุณ การ routing ของหุ่นยนต์ การ stabilization ของ AR การคาดการณ์ และมันจะสรุปข้อดีข้อเสีย ผุดงานวิจัยที่เกี่ยวข้อง และแม้แต่ sketch แผนทางเทคนิคได้เร็วกว่าที่คุณจะพูดว่า "ทำไม loss ของฉันถึงไม่ลดลง" มันไม่ได้มาที่นี่เพื่อขายภาพสะท้อนแอ่งน้ำให้คุณ มันมาที่นี่เพื่อป้องกันไม่ให้คุณสร้างห้องปฏิบัติการวิจัยขึ้นมาใหม่ครึ่งหนึ่ง ความเข้าใจผิดที่ไม่ยอมตาย
- "World models แทนที่เอนจิน" ไม่จริง พวกมันเสริมเอนจิน เอนจินเปล่งประกายที่ภาพที่ควบคุมได้ โมเดลเปล่งประกายที่ความเป็นจริงที่ยุ่งเหยิง
- "คุณไม่สามารถไว้วางใจฟิสิกส์ที่เรียนรู้ได้" คุณทำได้ ถ้าคุณปรับเทียบและจำกัด วิศวกรได้ทำสิ่งนี้ในระบบควบคุมมานานหลายทศวรรษแล้ว
- "มันเป็นแค่การทำนายวิดีโอ" มันคือการทำนายวิดีโอด้วยจุดประสงค์: การวางแผน การตัดสินใจ ความไม่แน่นอน นั่นคือขั้นตอนมหัศจรรย์จากสวยงามไปสู่มีประโยชน์
วิธีตัดสินใจ: มินิโฟลว์ชาร์ตสไตล์ Stern
- ต้องการภาพที่ cinematic และ deterministic หรือไม่? ใช้เอนจินเกม
- ต้องการการคาดการณ์เชิงความน่าจะเป็นในโลกแห่งความเป็นจริงหรือไม่? ใช้ world model
- ต้องการทั้งสองอย่างหรือไม่? เริ่มต้นด้วยโมเดลสำหรับพฤติกรรมและเอนจินสำหรับการทดสอบ ทำให้พวกเขาทักทายกัน
- ไม่มีข้อมูล? เริ่มรวบรวม อนาคตของคุณจะซื้อกาแฟให้คุณ
การคาดการณ์ในอนาคต (อย่างเหมาะสม): ทุกอย่างเป็นแบบไฮบริด
คาดหวังว่าเอนจินจะดูดซับส่วนประกอบที่เรียนรู้มากขึ้น โมเดลพฤติกรรม NPC ฟิสิกส์ที่เรียนรู้ แม้แต่การเคลื่อนกล้อง คาดหวังว่า world models จะสามารถควบคุมและเป็นมิตรกับเครื่องมือมากขึ้น คิดถึงการวางแผนที่ promptable ฉากแฝงที่แก้ไขได้ และการรับประกันความปลอดภัย
ในไม่ช้า คุณอาจจะ “ประพันธ์” ฉากโดยการอธิบายเจตนา: "บ่ายฝนตก คนเดินเท้าเสียสมาธิ หุ่นยนต์จัดส่งต้องเปลี่ยนเส้นทาง" ระบบจะเรนเดอร์ภาพและพลวัต คุณแก้ไขทั้งสองอย่างเหมือนเลเยอร์ในไทม์ไลน์ นั่นคือช่องทางรวมที่เรากำลังเข้าสู่
Wrap-up: ใครเป็นคนควบคุม คุณ สคริปต์ หรือโมเดล?
เอนจินแบบดั้งเดิมเป็นผู้กำกับที่ยอดเยี่ยมของการแสดงที่เชื่อถือได้มาก World model ของ Odyssey คือคณะด้นสดที่สอบกลางภาควิชาฟิสิกส์ผ่านด้วย ถ้าคุณต้องการการควบคุม ให้ใช้สคริปต์ ถ้าคุณต้องการความสามารถในการปรับตัว ให้ใช้โมเดล ถ้าคุณต้องการทั้งสองอย่าง เข้าร่วมกับพวกเราที่เหลือ จังหวะกลอง GPUs เหมือนมันฝรั่งร้อน
นี่คือสิ่งที่คุณต้องจำ: เอนจินแสดงให้คุณเห็นโลกที่คุณสร้างขึ้น Odyssey พยายามแสดงให้คุณเห็นโลกที่คุณจะได้พบ เลือกให้เหมาะสม และอาจจะเตรียมไม้ถูพื้นไว้สำหรับน้ำอัดลมบนเวทีด้วย
คำถามที่พบบ่อย
Q1: World model ของ Odyssey เป็นตัวแทนที่ใช้แทน Unity หรือ Unreal หรือไม่?
ไม่ คิดถึงว่าเป็นส่วนเติมเต็ม ไม่ใช่ตัวแทนที่ใช้แทน ใช้เอนจินเกมสำหรับภาพที่มีความเที่ยงตรงสูงและการควบคุมที่แม่นยำ และใช้ world model ของ Odyssey เมื่อคุณต้องการการคาดการณ์ การจัดการความไม่แน่นอน และการสรุปผลในโลกแห่งความเป็นจริง
Q2: ทำไม world model ถึงมีความสำคัญสำหรับหุ่นยนต์และ AR?
เพราะโลกไม่ได้ทำตามสคริปต์ของคุณ World model ทำนายผลลัพธ์ที่น่าจะเป็นไปได้ ติดตามวัตถุผ่านการบดบัง และวางแผนรอบๆ มนุษย์และความโกลาหล ซึ่งเป็นสิ่งที่เอนจินแบบดั้งเดิมไม่ได้เรียนรู้จากประสบการณ์ดิบ
Q3: อะไรคือข้อเสียของการเรียนรู้ฟิสิกส์และการคาดการณ์
พวกมันสามารถสร้างภาพหลอนหรือมีความมั่นใจมากเกินไป การแก้ไข: ปรับเทียบกับ ground truth ติดตามความไม่แน่นอน เพิ่มข้อจำกัดด้านความปลอดภัย และให้มนุษย์อยู่ในวงจรสำหรับการตัดสินใจที่มีเดิมพันสูง
Q4: ฉันสามารถรัน world model ในแบบเรียลไทม์ได้หรือไม่?
ได้ ด้วยฮาร์ดแวร์และการปรับให้เหมาะสมของโมเดลที่เหมาะสม quantization การ distillation การ batching คาดว่าจะมีการแลกเปลี่ยน: ลูกกวาดสำหรับดวงตาน้อยกว่า การมองการณ์ไกลที่ฉลาดกว่าบนท้องถนน
Q5: ฉันจะเริ่มย้ายจากการเขียนสคริปต์ไปยัง world models ได้อย่างไร?
รวบรวมข้อมูลที่เกี่ยวข้องกับงาน กำหนดเป้าหมาย ฝึกโมเดลพลวัต และรวม planner ตรวจสอบใน sandbox ของเอนจินเกม แล้วทำซ้ำ โบนัส: เครื่องมือเช่น Sider.AI สามารถช่วย map สแต็กและหลีกเลี่ยงทางตันได้